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Vorwort 


Als vor rund 60 Jahren das erste sozialwissenschaftliche Datenarchiv — als Zentralarchiv an 
der Universität zu Köln — in Deutschland gegründet wurde, steckte die langfristige Sicherung 
von Forschungsdaten noch in ihren Kinderschuhen. Zunächst galt es herauszufinden, was die 
Archivierung von sozialwissenschaftlichen Forschungsdaten überhaupt bedeutet. Dies betraf 
einerseits die Forschungsethik und den Schutz der Befragten bzw. ihrer persönlichen Infor- 
mationen. Anderseits galt es grundlegend zu klären, wie Forschungsdaten — damals noch als 
Lochkarten — längerfristig gesichert und zur Nachnutzung erhalten werden konnten. Damit 
verbunden waren beispielsweise organisatorische Fragen oder das Problem einer adäquaten 
Dokumentation zur Gewährleistung der Verständlichkeit von Forschungsdaten. 

In den vergangenen 60 Jahren hat sich viel verändert. Getrieben durch die Digitalisierung 
und die Möglichkeit Forschungsdaten über das Internet zugänglich zu machen, bauten Ar- 
chive nicht nur eine eigene Infrastruktur systematisch auf und aus, sondern investierten auch 
in die Entwicklung gemeinsamer Standards, etwa zur Datendokumentation oder Datenzita- 
tion. Dieser Prozess dauert weiter an und als sozialwissenschaftliche Datenarchive stehen wir 
heute vor neuen Herausforderungen, etwa in Bezug auf neue Datentypen. Heute befindet sich 
die Archivierung sogenannter Big Data, wie etwa von Social Media oder georeferenzierten 
Daten, noch in ihren Anfängen. Wie in den letzten 60 Jahren gilt es auch heute zu klären, wie 
derartige neue Datentypen überhaupt archiviert und langfristig zur weiteren Nutzung gesi- 
chert werden können. 

Derweil hat sich die Idee der langfristigen Sicherung, Archivierung und Verfügbarkeit 
von Forschungsdaten in der sozialwissenschaftlichen Forschungsgemeinschaft verfestigt. 
Während vor rund 60 Jahren der Wille zum Teilen der Daten nur sehr schwach ausgeprägt 
war, ist die Bereitstellung von Forschungsdaten zu Transparenz- und Replikationszwecken 
ebenso wie zur Nachnutzung durch Dritte mittlerweile zu einem Bestandteil guter wissen- 
schaftlicher Praxis geworden. Um Forschende bei der Erstellung archivier- und teilbarer Da- 
ten zu unterstützen, ist ein adäquates und gezieltes Forschungsdatenmanagement unerläss- 
lich. Nur so können Forschende von Projektbeginn an sicherstellen, dass ihre Forschungsda- 
ten längerfristig erhalten bleiben und Dritten verfügbar gemacht werden können. 

Mit Freude habe ich daher die Idee dieses Buches zur Kenntnis genommen und ihre Um- 
setzung nach besten Kräften unterstützt. Anhand praxisnaher Beispiele aus der täglichen Ar- 
chivarbeit, den vielfachen Projektberatungen und den langjährigen Kooperationen mit gro- 
Ben (inter-)nationalen Umfrageprogrammen bietet das Buch einen leichten Einstieg in grund- 
legende Fragen des Forschungsdatenmanagements. Es veranschaulicht archivspezifische Inf- 
rastrukturen zur Unterstützung der Nachnutzbarkeit von Forschungsdaten und diskutiert neue 
Herausforderungen, mit denen Archive ebenso wie Forschende heute konfrontiert sind. Be- 
sonders freut mich daher auch die Unterstützung von GESIS — Leibniz-Institut für Sozial- 
wissenschaften und die Finanzierung des Buches im Open-Access-Format. Für mich verbin- 
det sich damit sowohl die Hoffnung, Forschende in ihrem Forschungsdatenmanagement ge- 
zielt zu fördern, als auch zukünftig weiterhin qualitativ hochwertige Daten archivieren und 
der Forschungsgemeinschaft zur Nachnutzung zur Verfügung stellen zu können. 


Alexia Katsanidou 


Professorin der Empirischen Sozialforschung, Universität zu Köln, Leiterin des Datenarchivs 
für Sozialwissenschaften, GESIS — Leibniz-Institut für Sozialwissenschaften 
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1. Einleitung 


Uwe Jensen, Sebastian Netscher und Katrin Weller 


Forschungsdatenmanagement gewinnt in den Sozialwissenschaften in den letzten Jahren zu- 
nehmend an Bedeutung. Hier zunächst verstanden als Sammelbegriff für alle Aktivitäten und 
Maßnahmen im Umgang mit Forschungsdaten, hat sich das Forschungsdatenmanagement als 
zentraler Bestandteil guter wissenschaftlicher Praxis in empirischen Forschungsvorhaben 
etabliert. Forschungsdatenmanagement erzeugt die notwendige Transparenz in der Erstel- 
lung der Forschungsdaten, gewährleistet deren Nachvollziehbarkeit und ermöglicht so die 
Replikation von Forschungsergebnissen. Die Forderung nach der Bereitstellung von For- 
schungsdaten zur weiteren Nutzung im Sinne von Open Science bzw. Open Data durch Wis- 
senschaftsorganisationen und Forschungsförderer unterstreicht die Relevanz eines systema- 
tischen Umgangs mit Forschungsdaten und die Anforderungen an ein nachhaltiges For- 
schungsdatenmanagement. 

Um Forschenden in den Sozialwissenschaften den Umgang mit quantitativen For- 
schungsdaten zu erleichtern, nimmt der vorliegende Sammelband praktische Herausforde- 
rungen des Forschungsdatenmanagements in den Blick. Mit Hilfe von Anwendungsfällen 
aus der empirischen Sozialforschung vermittelt das Buch Grundlagen des Forschungsdaten- 
managements und bietet anschauliche Beispiele für die Praxis. Es vermittelt Lösungsansätze 
und erlaubt, diese unmittelbar in die tägliche Arbeit zu übertragen. Dabei bezieht der Sam- 
melband Empfehlungen, Richtlinien und Werkzeuge zum Forschungsdatenmanagement sys- 
tematisch ein und erörtert spezifische Gegebenheiten der deutschen Forschungslandschaft. 
Die Beiträge sind dabei von Publikationen zu den Methoden der empirischen Sozialfor- 
schung und entsprechenden Forschungsaktivitäten abzugrenzen. Stattdessen fokussiert das 
Buch die Anwendung von Maßnahmen und Verfahren zur Erstellung, Nutzung und Siche- 
rung sozialwissenschaftlicher Forschungsdaten. 

Die einzelnen Kapitel des Sammelbandes wurden von (ehemaligen) Mitarbeitenden des 
Datenarchivs für Sozialwissenschaften bei GESIS — Leibniz-Institut für Sozialwissenschaf- 
ten verfasst. Diese besitzen langjährige Praxiserfahrung im Umgang mit Forschungsdaten 
und (inter-)nationalen Forschungsvorhaben. Die Autorinnen und Autoren richten sich mit 
dem Buch zum einen an Forschende in den Sozialwissenschaften und verwandten Bereichen, 
die quantitative Umfragedaten erheben, aufbereiten oder analysieren. Als Leitfaden soll der 
Sammelband diese mit den notwendigen Kenntnissen im Umgang mit Forschungsdaten aus- 
rüsten und sie in der Planung und Umsetzung ihres eigenen Forschungsdatenmanagements 
unterstützen. Zur Zielgruppe des Buchs zählen zum anderen Mitarbeitende in Forschungs- 
projekten und Personen, die beruflich mit entsprechenden Daten umgehen, wie z.B. Archi- 
var/innen oder Projekt- bzw. Drittmittelmanager/innen. Diese Zielgruppe soll das Buch dabei 
unterstützen, ihr vorhandenes Wissen in der Handhabung von Forschungsdaten zu erweitern 
und zu vertiefen. 

Der Sammelband behandelt das Thema Forschungsdatenmanagement aus drei Perspekti- 
ven. Der erste Teil liefert eine generelle Einführung in das Thema und erörtert entsprechende 
Aktivitäten und Maßnahmen im Rahmen eines empirischen Forschungsprojekts. Im Zentrum 
des zweiten Teils steht die spezielle Rolle von Forschungsdateninfrastrukturen bei der Etab- 
lierung und Fortentwicklung von Metadatenstandards ebenso wie von Standards zu Datenzi- 
tation. Der Sammelband schließt im dritten Teil mit einem Ausblick auf neue Heraus- 
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forderungen des Forschungsdatenmanagements am Beispiel neuer Datentypen bzw. neuer 
Datenquellen, wie Social-Media-Daten oder georeferenzierte Umfragedaten. 

Der erste Teil des Buches umfasst die Kapitel 2 bis 8. Kapitel 2 führt zunächst allgemein 
in die Themen Forschungsdaten und Forschungsdatenmanagement in den Sozialwissen- 
schaften ein. Es schafft ein grundlegendes Verständnis für zentrale Begriffe des Buches und 
beschreibt die besonderen Eigenarten sozialwissenschaftlicher Umfragedaten. Daran an- 
schließend wird der Umgang mit diesen Daten im Kontext von Lebenszyklusmodellen an- 
hand des DDI Data Lifecycles von der Planung bis zur Nachnutzung erörtert. Darauf aufbau- 
end wird das Forschungsdatenmanagement in den Sozialwissenschaften im Kontext des Le- 
benszyklus von Daten, der Rolle von Forschungsdateninfrastrukturen und der neuen Heraus- 
forderungen beim Management von Daten diskutiert. 

Kapitel 3 thematisiert, wie Forschende ihr Forschungsdatenmanagement systematisch 
planen und umsetzen können. Ein systematisches Forschungsdatenmanagement beginnt mit 
einer vorausschauenden Vorbereitung im Rahmen der eigentlichen Projektplanung. Dabei 
müssen Forschende zunächst überlegen, welche Ziele sie mit welchen Maßnahmen des For- 
schungsdatenmanagements verbinden. So muss jede empirische Forschung durch ein pro- 
jektinternes Forschungsdatenmanagement zuallererst sicherstellen, dass die eigentlichen 
Forschungsziele erreicht werden können. Im Sinne guter wissenschaftlicher Praxis sollten 
die im Forschungsprojekt erstellten Daten aber über das Forschungsprojekt hinaus erhalten 
bleiben und so eine längerfristige Replikation der Forschungsergebnisse bzw. eine weitere 
Nutzung durch andere Forschende in neuen Forschungskontexten ermöglichen. 

Die folgenden Kapitel 4 bis 8 adressieren spezifische Themenkomplexe des Forschungs- 
datenmanagements. Kapitel 4 beginnt mit dem Datenschutz im Forschungsdatenmanage- 
ment. Die empirische Sozialforschung greift zumeist auf personenbezogene und eventuell 
sensible Daten, z.B. von Studienteilnehmer/innen, zurück. Die Erhebung, Verarbeitung und 
Nutzung derartiger Informationen unterliegen datenschutzrechtlichen und forschungsethi- 
schen Bestimmungen. Das Kapitel zeigt grundlegende Regelungen im Bereich des aktuellen 
Datenschutzrechts auf und bietet Anleitungen, wie diese Regelungen in der Praxis umgesetzt 
werden können. Dazu erörtert das Kapitel neben forschungsethischen und datenschutzrecht- 
lichen Aspekte vor allem das Thema Anonymisierung von quantitativen Daten. Es beleuchtet 
anhand von Fallbeispielen gängige Verfahren ebenso wie häufig wiederkehrende Fehler bei 
der Umsetzung datenschutzrechtlicher Bestimmungen. 

Kapitel 5 befasst sich mit der Dateiorganisation in empirischen Forschungsprojekten. 
Der Erfolg von empirischen Forschungsprojekten fußt vor allem darauf, dass die im Projekt 
generierten oder weiterverwendeten Informationen zum richtigen Zeitpunkt für den richtigen 
Personenkreis auffindbar und zugänglich sind. Das gilt insbesondere für Daten und ihre Do- 
kumentation, aber auch für Dokumente, die Prozesse und Entscheidungen transparent und 
replizierbar machen. Das Kapitel zeigt anhand von Beispielen erstens, wie Informations- 
flüsse im Projekt mit Hilfe eines Modells zur Beschreibung des Lebenszyklus von For- 
schungsdaten effizient geplant und gesteuert werden können. Zweitens beschreibt es, wie 
Dateiverzeichnisse und Dateien so benannt und strukturiert werden können, dass sie die Auf- 
findbarkeit, Authentizität und Integrität aller im Projekt anfallenden Informationen unterstüt- 
zen. Zusammengenommen helfen diese Maßnahmen, Informationsverluste zu vermeiden 
und den Forschungsprozess mit allen getroffenen Entscheidungen, die Auswirkungen auf die 
Forschungsergebnisse haben, nachvollziehbar zu machen. 

Die Datenaufbereitung und Dokumentation wird in Kapitel 6 thematisiert. Als Phase im 
Lebenszyklus der Forschungsdaten hat sie die Aufgabe, die Daten für die Forschung nutzbar 
zu machen. Das stellt Forschungsprojekte vor die Herausforderung, einen Workflow zu ent- 
wickeln, der die Projektziele in unmittelbare Arbeitsschritte übersetzt und diese für alle Be- 
teiligten transparent und verständlich macht. Ausgehend hiervon fokussiert das Kapitel die 
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Planung und Organisation der Datenaufbereitung im Projektverlauf. Sie soll zu einem mög- 
lichst effizienten Workflow führen, der auf eine hohe Qualität und umfassende Dokumenta- 
tion der Daten gerichtet ist. 

Kapitel 7, Data Sharing: Von der Sicherung zur langfristigen Nutzung der Forschungs- 
daten, greift die abschließende Publikation von Daten als wichtiges Ergebnis von For- 
schungsvorhaben auf. Die dauerhafte Verfügbarkeit von Forschungsdaten — und damit auch 
ihre Archivierung als notwendige Voraussetzung — leistet einen wesentlichen Beitrag zu 
Open Science: Sie macht Ergebnisse empirischer Forschung nicht nur nachvollziehbar und 
replizierbar, sondern auch anschlussfähig. Das Kapitel liefert einen Überblick über verschie- 
dene Möglichkeiten, Forschungsdaten nach Projektende zu sichern und Dritten zur Nachnut- 
zung zur Verfügung zu stellen. 

Unter dem Titel Forschungsdatenmanagement in der Sekundäranalyse schlägt Kapitel 8 
die Brücke zwischen dem Forschungsdatenmanagement datengenerierender Projekte und der 
Nachnutzung von Forschungsdaten im Rahmen neuer Forschungsvorhaben. Es beschreibt im 
Sinne guter wissenschaftlicher Praxis die Notwendigkeit replizierbarer Forschungsergeb- 
nisse bei der Nachnutzung bereits existierender Daten. Der Idee von Open Science folgend, 
können darüber hinaus im Forschungsprojekt erstellte Skripte, etwa in Form von Datenhar- 
monisierungskonzepten, entwickelt werden, die ihrerseits für Dritte zur Nachnutzung inte- 
ressant sein können und folglich verfügbar gemacht werden sollten. Das Kapitel zeigt anhand 
eines Beispiels die relevanten Schritte auf, um die Replizierbarkeit und Nachnutzbarkeit ver- 
wendeter Forschungsdaten und Aufbereitungskonzepte sicherzustellen. Es liefert somit auch 
einen Beitrag zur Fortentwicklung des Forschungsdatenmanagements in der Sekundärana- 
lyse. 

Der zweite Teil des Sammelbandes umfasst die Kapitel 9 und 10 und ist den spezifischen 
Themen Metadaten und Datenzitation im Forschungsdatenmanagement gewidmet. Die Ka- 
pitel thematisieren Dienstleistungen und technische Entwicklungen von sozialwissenschaft- 
lichen Dateninfrastrukturen, die den konkreten Projektalltag mittelbar oder unmittelbar un- 
terstützen. Die beiden Beiträge richten sich an Interessierte, die diese Themen bei ihrer Arbeit 
mit Forschungsdaten vertiefen und praktische Nutzungsmöglichkeiten besser verstehen wol- 
len. 

Kapitel 9 behandelt dazu zunächst Metadatenstandards im Kontext sozialwissenschaftli- 
cher Daten und deren Rolle für die Dokumentation und Erschließung von Forschungsdaten. 
Es stellt gängige Metadatenstandards vor und beschreibt u.a. ihre Relevanz für Forschende 
beim Auffinden von Studien in nationalen wie internationalen Datenkatalogen ebenso wie 
bei der Dokumentation von Variablen und Fragen in sozialwissenschaftlichen Datensätzen. 
Darüber hinaus erörtert der Beitrag Standards und Tools zur Bearbeitung von Metadaten und 
stellt insbesondere den Metadatenstandard der Data Documentation Initiative (DDI) sowie 
seine Möglichkeiten zur Dokumentation von Forschungsdaten vor. 

Kapitel 10 thematisiert anschließend die Aspekte der Zitierbarmachung und Zitation von 
Forschungsdaten. Nicht nur Forschungspublikationen, sondern auch die im Forschungspro- 
zess entstandenen Daten sollen gemäß anerkannter Grundsätze zum Umgang mit For- 
schungsdaten zitierbar sein und zitiert werden. Die Datenzitation fördert die Anerkennung 
der Produktion von Forschungsdaten als eine primäre Wissenschaftsleistung. Das Kapitel 
erörtert die Möglichkeiten und Herausforderungen bei der Zitierbarmachung von For- 
schungsdaten. Es werden vorhandene Services zur Unterstützung der Datenproduzierenden 
beschrieben und anhand eines ausgewählten Dienstes — des DOI®-Systems — konkrete Emp- 
fehlungen ausgesprochen. 

Der letzte Teil des Buches befasst sich schließlich in den Kapiteln 11 und 12 mit neuen 
Herausforderungen und Entwicklungen im Forschungsdatenmanagement am Beispiel neuer 
Datentypen bzw. neuer Datenquellen. Kapitel 11 gibt einen Ausblick auf die Heraus- 
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forderungen im Umgang mit Social Media-Inhalten als neue Art von Forschungsdaten. Die 
Nutzung neuartiger, großer Datenbestände etwa aus Suchmaschinen oder Social-Networ- 
king-Plattformen wird seit einiger Zeit als Grundlage zum besseren Verständnis zahlreicher 
Lebensbereiche systematisch erprobt. Die unterschiedlichen Herausforderungen beim Um- 
gang mit diesen als New Data oder Big Data bezeichneten Datenquellen stehen im Mittel- 
punkt des Beitrags. Ausgehend von Social-Media-Daten als Forschungsgrundlage werden 
aktuelle Möglichkeiten und Grenzen bei der Sammlung, der Qualitätssicherung sowie die 
Archivierung und Nachnutzung dieses Datentyps diskutiert. 

Anhand der räumlichen Verknüpfung georeferenzierter Umfragedaten mit Geodaten wird 
in dem abschließenden Kapitel 12 die Verbindung verschiedener Datenquellen für die inte- 
grierte Analyse exemplarisch vorgestellt. Ausgehend vom inhaltlichen Mehrwert einer räum- 
lichen Verknüpfung diskutiert das Kapitel technische, rechtliche und dokumentarische Her- 
ausforderungen ebenso wie praktische Empfehlungen zur Datenorganisation. 

Insgesamt hoffen wir, mit diesem Sammelband Forschenden, Lehrenden und Personen, 
die im beruflichen Alltag mit quantitativen sozialwissenschaftlichen Daten arbeiten, einen 
praktischen Leitfaden an die Hand zu geben, der es ihnen ermöglicht, die unterschiedlichen 
Facetten des Forschungsdatenmanagements besser zu verstehen und den einen oder anderen 
Lösungsansatz in ihre tägliche (Forschungs-)Arbeit erfolgreich zu integrieren. Gleichzeitig 
hoffen wir als Autorinnen und Autoren auf vielfältige kritische Rückmeldungen und Verbes- 
serungsvorschläge, die dazu anregen, Grundsätze und Lösungen zum Forschungsdatenma- 
nagement sozialwissenschaftlicher Daten in Theorie und Praxis weiterzuentwickeln. 
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2. Forschungsdaten und Forschungsdatenmanagement in den 
Sozialwissenschaften 


Uwe Jensen 


Die Verfiigbarkeit von Daten ist fiir Forschende in den empirischen Sozialwissenschaften 
eine notwendige Voraussetzung ihres wissenschaftlichen Arbeitens. In den letzten Jahrzehn- 
ten hat sich die empirische Basis fiir wissenschaftliche Analysen und damit für das Verständ- 
nis sozialer Entwicklungen kontinuierlich ausgeweitet (King 2011). Dieser stetige Zuwachs 
an verfügbaren Daten beruht auf unterschiedlichen Faktoren und verschiedenen Entwicklun- 
gen. Hierzu zählen vor allem methodische und technische Neuerungen, wie Statistiksoftware, 
verfügbare Speicherkapazitäten oder das Internet. Zu nennen sind aber auch neue Datenty- 
pen, wie digitale Verhaltens- und Transaktionsdaten, Social-Media-Daten ebenso wie Pro- 
zessdaten öffentlicher Einrichtungen. Parallel zum Zuwachs an empirischen Daten ist auch 
deren Komplexität kontinuierlich gestiegen. Dies betrifft sowohl die Informationen in den 
Daten als auch die Datenquellen und Methoden der Datenproduktion und Analyse (Ludwig/ 
Enke 2013: 13). Insbesondere die Verknüpfung von neuen Datentypen oder von Daten ande- 
rer Disziplinen, wie z.B. Geo- oder Gesundheitsdaten, mit traditionellen Umfragedaten der 
empirischen Sozialforschung ist dabei mit der Erwartung verbunden, soziale Entwicklungen 
noch besser verstehen zu können (Jensen et al. 2015: 12f.; OECD 2013: 12). 

Mit dem stetigen Zuwachs an Daten und deren Komplexität sind Forschende und For- 
schungsdatendateninfrastrukturen mit neuen Fragen und Herausforderungen beim Umgang 
mit diesen (neuen) Daten konfrontiert. Dies betrifft etwa Maßnahmen zum Erhalt der Daten 
ebenso wie zur Sicherung ihrer Qualität und der Gewährleistung ihrer Verständlichkeit. For- 
schende, die im Rahmen ihres Forschungsvorhabens Daten produzieren, müssen aus rein 
intrinsischen Motiven sicherstellen, dass sie diese Daten zur Beantwortung der Forschungs- 
frage nutzen können. Im Sinne guter wissenschaftlicher Praxis sollten diese Forschenden 
aber auch gewährleisten, dass die Daten über das Forschungsvorhaben hinaus erhalten blei- 
ben, um produzierte Forschungsergebnisse replizieren und somit überprüfen zu können. In 
diesem Zusammenhang forderte etwa die Deutsche Forschungsgemeinschaft (DFG) bereits 
1988, dass ,,Primardaten als Grundlagen für Veröffentlichungen [...] auf haltbaren und gesi- 
cherten Trägern in der Institution, wo sie entstanden sind, zehn Jahre lang aufbewahrt wer- 
den“ (DFG 2013 [1988]: 21) sollen. 

In den nachfolgenden Jahren forcierten Initiativen von Forschenden und Forschungsge- 
meinschaften Überlegungen, öffentlich finanzierte Daten der empirischen Sozialforschung 
auch für Dritte zur Nachnutzung in neuen Forschungskontexten (Data Sharing) verfügbar zu 
machen (vgl. OECD 2007; Berliner Erklärung 2003). Die Forderung, Daten für Dritte breit- 
zustellen, wurde auch in den „Empfehlungen zur gesicherten Aufbewahrung und Bereitstel- 
lung digitaler Forschungsprimardaten“ der DFG (2009) aufgegriffen und u.a. hinsichtlich der 
Qualitätssicherung, fachspezifischer Organisationskonzepte, Standards zur Datenspeiche- 
rung und zur Beschreibung durch Metadaten präzisiert. Schließlich formulierte die Allianz 
der deutschen Wissenschaftsorganisationen 2010 die Grundsätze zum Umgang mit For- 
schungsdaten. Sie verweisen auf den disziplinspezifischen Charakter der Daten und entspre- 
chende fachspezifische Regeln und Standards, etwa in Bezug auf den Datenschutz oder den 
Zugang zu Daten. In den letzten Jahren implementierten schließlich mehr und mehr Förderer 
in ihren Ausschreibungen die Verpflichtung zum Bereitstellen von Daten, deren Erstellung 
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durch das Forschungsvorhaben finanziert wurde. Dazu zahlen z.B. das Horizon 2020 Pro- 
gramme (0.J.) der Europäischen Kommission, die Förderung der Forschung zur Digitalisie- 
rung im Bildungsbereich des Bundesministeriums für Bildung und Forschung (BMBF 2017) 
und nicht zuletzt die DFG mit ihren Leitlinien zum Umgang mit Forschungsdaten (DFG 
2015) und Leitfäden für Antragstellende (DFG 2018). 

Alle im Rahmen eines empirischen Forschungsvorhabens (und darüber hinaus) ergriffe- 
nen Maßnahmen zur Sicherung der Daten, zu ihrem längerfristigen Erhalt, zur Gewährleis- 
tung ihrer Qualität und ihrer Verständlichkeit ebenso wie zu ihrer Bereitstellung für Dritte 
werden zumeist unter dem Begriff des Forschungsdatenmanagements subsumiert. Zur Ein- 
führung in das Thema Forschungsdatenmanagement stellt Abschnitt 2.1 zunächst übergrei- 
fende Begriffe und Konzepte eines sozialwissenschaftlich orientierten Forschungsdatenma- 
nagements vor, auf die sich die weiteren Kapitel explizit oder implizit beziehen. Dazu wird 
insbesondere auf allgemeine Charakteristika von Umfragedaten in den Sozialwissenschaften 
eingegangen, um ein Verständnis derartiger Daten quer zu allen Kapiteln dieses Buches zu 
erleichtern. Abschnitt 2.2 thematisiert einleitend, wie sich Forschungsprozesse in den Le- 
benszyklusmodellen von Forschungsdaten einordnen lassen. Der spezifischere Zusammen- 
hang des Forschungsdatenmanagements bei der Produktion von Daten und Metadaten wird 
danach entlang des DDI-Data-Lifecycle-Modells beschrieben. Gleichzeitig wird die Rolle 
des gleichnamigen DDI-Metadatenstandards zur Dokumentation von Umfragedaten erläu- 
tert, auf den in einigen Kapiteln Bezug genommen wird. Abschnitt 2.3 dient schließlich der 
Zusammenschau des sozialwissenschaftlichen Forschungsdatenmanagements aus drei ver- 
schiedenen Perspektiven. Zuerst werden projektbezogene Maßnahmen und Aktivitäten des 
Forschungsdatenmanagements quer zu den Phasen des Lebenszyklus von Daten resümiert. 
Anschließend geht der Abschnitt kurz auf die Rolle und Dienstleistungen von Dateninfra- 
struktureinrichtungen im Rahmen des Forschungsdatenmanagements ein und thematisiert 
neue Herausforderungen im Umgang mit neuen Datenformen und Datenquellen. Abschnitt 
2.4 fasst zentrale Aspekte des Forschungsdatenmanagements zusammen, die die weiteren 
Kapitel dieses Buches vertiefen. 


2.1 Besonderheiten sozialwissenschaftlicher Daten 


Im Mittelpunkt dieses Buches steht das Management quantitativer sozialwissenschaftlicher 
Umfrage- bzw. Forschungsdaten, die durch standardisierte Befragungen erhoben werden. 
Gegenstand ist der Umgang mit eben diesen Forschungsdaten, die durch die disziplin- oder 
fachspezifische Methoden und Verfahren der empirischen Sozialforschung erzeugt werden. 
Konkrete Strategien, Maßnahmen und Regeln des Forschungsdatenmanagements in For- 
schungsvorhaben sind in starkem Maße von den Charakteristika der Daten und von den Be- 
sonderheiten der Datensatzstrukturen abhängig, mit denen eine Disziplin forscht. Bevor diese 
Aspekte im vorliegenden Kapitel vertieft werden, soll jedoch zunächst auf das Verständnis 
der Nutzung einiger Begriffe in diesem Buch eingegangen werden. 


2.1.1  Begriffsverständnis: Forschungsprojekt, Forschungsziel, Replikation und 
Nachnutzung 


Einige Begriffe der empirischen Sozialforschung, die in allen Kapiteln dieses Buches wie 
selbstverständlich verwendet werden, sind durchaus mit unterschiedlichen Bedeutungen 
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belegt. So bezeichnet im Kontext dieses Buches der Begriff Forschungsprojekt ein von einer 
oder mehreren Forschenden durchgefiihrtes empirisches Forschungsvorhaben, in dem sozi- 
alwissenschaftliche Daten erstellt, aufbereitet und/oder genutzt werden. In diesem Zusam- 
menhang sind auch die Begriffe Projektalltag, d.h. die tagliche Arbeit am Forschungsvorha- 
ben, Projektziele, d.h. die mit dem Forschungsvorhaben originar verkniipften Ziele, wie bei- 
spielsweise die Beantwortung einer konkreten Forschungsfrage, Projektworkflow, d.h. der 
Arbeitsablauf zur Umsetzung des Forschungsprojekts oder der Lebenszyklus des Projektes 
als systematische Abfolge des Projektworkflows, etc. zu verstehen. 

Gleichzeitig werden bei der Verwendung dieser Begriffe keine spezifischen formalen Or- 
ganisations- oder Kooperationsformen unterstellt. Dementsprechend ist auch der Begriff der 
kleinen und mittleren Forschungsprojekte im Verlauf dieses Buches bewusst unscharf ver- 
wendet und wird nicht mit einem bestimmten Umfang des Forschungsvorhabens, etwa in 
Form einer bestimmten Anzahl von im Projekt beteiligten Forschenden verbunden. Dies liegt 
zunächst daran, dass im hiesigen Zusammenhang der Begriff des Forschungsprojekts losge- 
löst von jeglicher zeitlichen oder finanziellen Dimension zu verstehen ist, d.h. es kann sich 
dabei um ein bereits beendetes, noch laufendes oder in Planung befindliches Projekt handeln, 
dass institutionell finanziert oder durch Drittmittelgeber gefördert ist. 

Darüber hinaus fehlt es an entsprechender Trennschärfe, was genau als Forschungspro- 
jekt zu definieren ist. Gerade in internationalen Umfragen können einzelne Erhebungen in 
unterschiedlichen Ländern getrennt betrachtet werden und so das große, gesamte For- 
schungsprojekt in viele Teilprojekte zerlegt werden. Zum anderen liefert beispielsweise die 
Anzahl an beteiligten Forschenden im Projekt nur eine vage Einschätzung der Projektgröße. 
So können ggf. große internationale Umfrageprogramme mit vergleichsweise wenigen, aber 
sehr gut geschulten Mitarbeitenden die Aufbereitung und Dokumentation der erstellten Da- 
ten bewerkstelligen. Umgekehrt können relativ kleine Forschungsprojekte mit einer relativ 
hohen Anzahl an Projektbeteiligten ausgestattet sein, z.B., wenn im Rahmen des Forschungs- 
vorhabens von einem Teil der Forschenden weiterführende Qualifikationen, wie etwa Pro- 
motionen, angestrebt werden. 

Forschungsziele sind in den Sozialwissenschaften zumeist verbunden mit der Beantwor- 
tung konkreter Forschungsfragen, wie etwa zum Wahlverhalten in einem oder mehreren Län- 
dern bzw. zu einem oder mehreren Zeitpunkten. Forschungsziele können aber viel weiter 
gefasst werden. So kann beispielsweise auch die Erstellung eines Datensatzes Ziel eines Pro- 
jektes sein oder zumindest ein wichtiges Produkt der eigentlichen Projektarbeit darstellen. 
Doch auch unter der Annahme, dass die Beantwortung einer konkreten Forschungsfrage im 
Vordergrund des Forschungsvorhabens steht, können projektintern verschiedene Ziele im 
Umgang mit den erstellten Forschungsdaten definiert werden. Dies betrifft in erster Linie 
natürlich die erfolgreiche Umsetzung der eigentlichen Projektziele und somit den Erhalt qua- 
litativ hochwertiger und verständlicher Forschungsdaten im Projektverlauf. 

Im Sinne guter wissenschaftlicher Praxis sollten Forschende die Daten zu Replikations- 
zwecken über das eigentliche Projektende hinaus aufbewahren. Zumindest wenn diese Daten 
zur Generierung publizierter Forschungsergebnisse genutzt wurden, muss sichergestellt sein, 
dass diese Ergebnisse erneut erzeugt werden können. In diesem Buch verstehen wir unter 
dem Begriff der Replikation die Möglichkeit, Analysen und die zugrunde liegenden Daten 
aus publizierten Forschungsergebnissen systematisch zu überprüfen. Dies betrifft sowohl die 
Überprüfung der Ergebnisse an sich, d.h. deren Verifikation durch die wiederholte Daten- 
analyse, als auch die wiederholte Erstellung der Daten auf Basis des ehemaligen Studiende- 
signs, Messinstruments etc. 

Der Begriff der Nachnutzung bzw. des Data Sharing beschreibt hingegen den Sachver- 
halt, dass relevante Forschungsdaten von den Primärforschenden (nach Projektende) Dritten 
zur weiteren Nutzung bereitgestellt und verfügbar gemacht werden (vergl. für die Sozial- 
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wissenschaften etwa den Beitrag von Huschka et al. 2011: 37f.). Die Gruppe an Nachnutzen- 
den kann dabei auf bestimmte Personen oder Personengruppen, wie z.B. Forschende der So- 
zialwissenschaften, begrenzt sein, oder aber eine breitere Öffentlichkeit, wie z.B. Forschende 
aus anderen Disziplinen, der Politik oder der Presse, umfassen. Gleiches gilt für den Zweck 
der Nachnutzung. Auch hier kann die Datennutzung auf bestimmte Zwecke, wie die sozial- 
wissenschaftliche Forschung, begrenzt oder aber für alle möglichen Zwecke, also beispiels- 
weise auch zur kommerziellen Nutzung, freigegeben werden. 


2.1.2 Forschungsdaten in den Sozialwissenschaften 


Im Zusammenhang mit Forschungsdaten wird oftmals von Rohdaten, Primärdaten, empiri- 
schen Daten, Ausgangdaten etc. gesprochen, die erhoben, verarbeitet, harmonisiert und ana- 
lysiert werden sollen. Eine einheitliche oder universelle Definition von Forschungsdaten, die 
im Detail für alle Disziplinen zutreffen würde, existiert jedoch nicht. Vielmehr herrscht in 
vielen Schriften und Leitlinien zum Umgang mit Daten Einigkeit, dass eine fachspezifische 
Betrachtung erforderlich ist. So heißt es etwa im Positionspapier Forschungsdaten der Deut- 
schen Initiative für Netzwerkinformation e.V. (DINI 2009: 7): 


Forschungsdaten variieren nach Disziplin. Anders als beim Umgang mit klassischen Textpublikationen 
ist beim Umgang mit Forschungsdaten häufig ein umfassendes Verständnis der jeweiligen Daten vonnö- 
ten, um den vielschichtigen disziplinspezifischen Charakteristika der Daten gerecht zu werden. 


Demnach definiert die jeweilige Forschungsgemeinschaft, was als Forschungsdaten im vor- 
liegenden Kapitel betrachtet wird und welche Anforderungen von Datenproduzierenden und 
-nutzenden an den Umgang mit ihnen zu berücksichtigen sind. Dabei ist es nach Ludwig 
(2012) nicht sinnvoll, Inhalte oder Quellen auszuschließen, die die Daten behandeln können 
oder denen sie entstammen, „da prinzipiell alles Untersuchungsgegenstand der Wissenschaft 
werden kann“. Stattdessen ist die Frage nach der Definition des Begriffs Daten „eher eine 
Aussage über ihre methodische Verwendung in einem bestimmten wissenschaftlichen Kon- 
text“ (ebd.: 300). 

Demnach muss die Frage nach der Definition von Forschungsdaten im vorliegenden Kon- 
text aus sozialwissenschaftlicher Perspektive betrachtet werden. Die Disziplin Sozialwissen- 
schaften ist ein Sammelbegriff für eine Vielfalt akademischer Fächer, von Anthropologie 
über die Soziologie und Politologie bis hin zur Ökonomie. Allen diesen Fächer gemein ist 
ihr Bezug zum sozialen Handeln und die Frage nach dem gesellschaftlichen Zusammenhalt. 
Die im Rahmen der Disziplin genutzten Methoden und Verfahren werden unter dem Begriff 
empirische Sozialforschung zusammengefasst. Die unterschiedlichen Fächer der Sozialwis- 
senschaften haben dabei ein gemeinsames Verständnis von Forschung und wissenschaftli- 
chem Arbeiten im Umgang mit den verwendeten Methoden (Quandt/Mauer 2012: 61). Zu 
diesen Methoden zählen im Wesentlichen die Befragung, die Beobachtung, das Experiment 
und die Inhaltsanalyse, die in sich weiter differenzierbar sind. Bei der Produktion bzw. der 
Erhebung empirischer Informationen werden unterschiedliche Instrumente eingesetzt, wie 
etwa Fragebögen, leitfadengestützte Interviews, Beobachtungsschemata, inhaltsanalytische 
Kategorienschemata usw. 

Im Sinne eines methodenbasierten Verständnisses (Ludwig 2012: 299) werden daher im 
Folgenden alle Informationen als sozialwissenschaftliche (Forschungs-)Daten definiert, die 
in wissenschaftlichen Kontexten durch fach- bzw. disziplinspezifische Methoden und Ver- 
fahren zur Beantwortung von Forschungsfragen und Gegenständen der Sozialwissenschaften 
erzeugt werden oder aus deren Bearbeitung entstehen. Dies umfasst sowohl die traditionellen 
Umfragedaten der empirischen Sozialforschung als auch neue Datentypen, wie etwa 
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prozessgeneriete Daten, oder Daten aus (relativ) neuen Quellen, wie etwa von Social-Media- 
Plattformen im Internet. D.h. auch, dass alle verfügbaren Informationen über die Entstehung 
und Bearbeitung dieser Daten, immer — zumindest implizit — in eine solche Definition von 
Forschungsdaten einbezogen werden müssen. Aus praktischer Sicht sind die rohen Mess- 
werte, z.B. in einer Datenmatrix, ohne eine entsprechende Dokumentation nicht verständlich 
und somit auch nicht nutzbar. 

Im Rahmen des Buches stehen vor allem Umfragedaten im Vordergrund, die durch stan- 
dardisierte Fragebögen erhoben werden. Sie werden im nächsten Abschnitt thematisiert. Dar- 
über hinaus wird der Umgang mit Daten aus neuen Datenquellen im Kontext neuer Heraus- 
forderungen an das Forschungsdatenmanagement behandelt. 


2.1.3 Studiendesign und Datenstruktur in der empirischen Sozialforschung 


Forschungsdaten sind die Basis empirischer Untersuchungen in den Sozialwissenschaften 
und liegen zumeist in digitaler Form vor. Sie bilden die zu untersuchenden Ausschnitte ge- 
sellschaftlicher Wirklichkeit ab. 


Diese können im Rückblick ohnehin schon neben ihrem Wert für die ursprüngliche Forschungsfrage sehr 
oft eine historisch beschreibende Funktion bekommen. [...] Sowohl historische amtliche Statistiken wie 
auch Daten aus Umfragen oder Beobachtungen können so einen analytischen Wert erhalten, der zum 
Zeitpunkt ihrer Erhebung noch nicht vorauszusehen war. (Quandt/Mauer 2012: 62) 


Der Begriff der Primärdatenerhebung bzw. der damit einhergehenden Primäranalyse be- 
schreibt dabei Daten, die zur Beantwortung einer spezifischen Forschungsfrage neu erhoben, 
aufbereitet und analysiert werden. Entsprechend der Forschungsfrage und dem Analyseziel 
eines Forschungsvorhabens müssen die notwendigen Informationen mit Hilfe eines geeigne- 
ten Studiendesigns und entsprechender Verfahren erhoben werden. So schreibt z.B. Moch- 
mann (2014: 233): 


Soll zu einem bestimmten Zeitpunkt die Verteilung von Merkmalen, wie z.B. Einstellungen zu aktuellen 
politischen Themen und Wahlpräferenzen analysiert werden, dann ist die Querschnittstudie bei einer 
Stichprobe der Wahlberechtigten das geeignete Verfahren. [...] So können zum jeweiligen Zeitpunkt Ein- 
stellungen zu den aktuellen politischen Fragen in Abhängigkeit von Merkmalen wie Alter, Schulbildung 
oder Einkommen erforscht werden. Die Ergebnisse haben überwiegend deskriptiven Charakter. 


Sollen demgegenüber Entwicklungen und Veränderungen von Einstellungen und Verhalten 
zu bestimmten Themen im Zeitverlauf erfasst werden, 


sind Trendstudien das zielführende Verfahren. [...] So werden z.B. zur Analyse des Wahlverhaltens über 
Zeit jeweils nach den Wahlen die gleichen Fragen erneut gestellt und die Antwortverteilungen mit den 
Ergebnissen früherer Studien verglichen. (Ebd.: 234) 


Eine dritte Form der vergleichenden empirischen Sozialforschung untersucht Entwicklungen 
nicht nur zu verschiedenen Zeitpunkten, sondern bezieht in den Vergleich auch unterschied- 
liche (geographische) Grundgesamtheiten mit ein. So sind etwa international vergleichende 
Studien eine geeignete Form, um globale Entwicklungen von Demokratien und Staaten zu 
erfassen, indem etwa das Wahlverhalten zu unterschiedlichen Zeitpunkten bei Wählerinnen 
und Wählern in verschiedenen Ländern untersucht wird (vgl. CSES 0.J.). 

Entgegen der Primärerhebung nutzt die sogenannte Sekundäranalyse bereits bestehende 
Daten. Sie wertet die Daten hinsichtlich der eigenen Forschungsfrage aus, unabhängig vom 
ursprünglichen Zweck ihrer Sammlung. Baur und Blasius (2014: 48f.) schreiben in diesem 
Zusammenhang: 
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Da die Datenerhebung meistens sehr aufwändig und teuer ist, greifen Sozialforscherinnen und Sozialfor- 
scher zunehmend auf vorhandene Datenbestände zurück, um diese einer Sekundäranalyse zu unterziehen. 
Für die Analyse von sozialen Prozessen ist dies teilweise sogar erforderlich, weil sich diese erst über Zeit 
entfalten [...]. So können einige der Daten, die bereits vor vielen Jahren oder gar vor mehreren Jahrzehn- 
ten erhoben wurden, erst heute in ihrem vollen Umfang ausgewertet werden. Des Weiteren ist oft auch 
im Sinne der Nachvollziehbarkeit und Überprüfung von früheren Forschungsergebnissen eine Re-Ana- 
lyse von Daten wünschenswert. 


Je nach konkreter Forschungsfrage bzw. je nach Forschungsvorhaben kann das Studiende- 
sign unterschiedlich komplex ausfallen. Entsprechend umfangreich und vielseitig sind die 
von einem Projekt erzeugten bzw. analysierten Forschungsdaten. Die grundlegende Struktur 
sozialwissenschaftlicher Forschungsdaten, die im Kontext des Forschungsdatenmanage- 
ments relevant werden, ergibt sich dabei aus drei Dimensionen: 


Anzahl der Stichprobe(n) der zu untersuchenden Grundgesamtheit(en) (Sample), 
Zeitpunkt(e) der Datenerhebung(en) (Time), 
geographischer Bezug der Daten (Space). 


Je nach Kombination dieser drei Dimensionen (Sample x Time x Space) lassen sich die in 
Schaukasten 2.1 dargestellten Formen des Studiendesigns bzw. die wachsende Komplexität 
der Datenstrukturen unterscheiden. Dabei handelt es sich lediglich um einige Beispiele, d.h. 
die im Schaukasten gelisteten Studiendesigns sind keineswegs vollständig. Darüber hinaus 
werden in den Sozialwissenschaften Daten aus amtlichen Statistiken genutzt oder auch pro- 
zessproduzierte Daten, die z.B. im Rahmen von Verwaltungsprozessen entstehen. 

Die jeweiligen Studiendesigns implizieren unterschiedlich komplexe Strukturen von Da- 
ten. Diese können auf eine grundlegende Form der Datenstruktur, die sogenannte Daten- 
matrix, zurückgeführt werden. Sie besteht in den quantitativen Sozialwissenschaften in der 
Regel aus rechteckigen Tabellen, in denen eine Liste von Subjekten in den Zeilen und deren 
Merkmale in den Spalten eingetragen werden. Merkmalsträger bzw. Subjekte können Perso- 
nen, Haushalte, Körperschaften, staatliche Entitäten, Güter etc. sein. Die Datenstrukturen 
können unterschiedliche Datentypen beinhalten, wie etwa Individualdaten oder Aggregatda- 
ten, Daten der amtlichen Statistik oder prozessproduzierte Mikrodaten öffentlicher Verwal- 
tungen. So umfassen z.B. Individualdaten einer Umfrage je Zeile eine befragte Person und 
pro Spalte je ein Merkmal (z.B. Alter der Person), das mit einem Frageitem des Fragebogens 
(z.B. durch die Frage ,,In welchem Jahr wurden Sie geboren?“) erhoben wurde. Die Antwor- 
ten jeder befragten Person werden dann in die entsprechende Zelle der Matrix als Wert ein- 
getragen. 

Für die statistische Auswertung werden alle Informationen bezüglich eines Frageitems 
für alle befragten Personen dazu in der gleichen Spalte als Variable mit zulässigen Variab- 
lenwerten abgelegt. Dementsprechend bilden Variablen Merkmale von Merkmalsträgern ab. 
Die Begriffe Variable und Merkmal werden dabei oftmals synonym verwendet. Die Menge 
aller Merkmalsträger — auch oft als Fälle bezeichnet — heißt Untersuchungseinheit. Variab- 
lenwerte repräsentieren — in der Regel durch numerische Werte — die Ausprägungen oder 
Kategorien der Merkmale (value; category) eines jeden Merkmalsträgers, wie etwa das kon- 
krete Alter einer befragten Person oder die Arbeitslosenquote in einem bestimmten Staat 
bzw. einer bestimmten Region. 

Diese Informationen müssen in der Primärerhebung zunächst gesammelt werden, z.B. 
durch die Befragung von Personen oder das Abrufen amtlicher Statistiken, die z.B. vom Sta- 
tistischen Bundesamt (Destatis) oder vom Statistischen Amt der Europäischen Union (Eu- 
rostat) bereitgestellt werden. Die hierbei entstehende Informationssammlung wird häufig 
auch als Rohdaten bezeichnet, die ggf. zunächst in eine rechteckige Datenmatrix überführt 
werden muss. Dazu sind die quantitativen Daten der empirischen Erhebung zunächst auf 
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Basis des Messinstruments, z.B. eines Fragebogens, zu definieren. Die Datendefinition um- 
fasst die Erstellung von Variablendefinitionen und Kodierungsschemata eines Datensatzes. 
Dazu wird ein erhobenes Merkmal als Variable im Analyseprogramm abgebildet und durch 
Variablenattribute beschrieben. 


Schaukasten 2.1: Beispiele für Studiendesigns in den Sozialwissenschaften anhand der Dimensionen Stich- 
probe (Sample), Zeitpunkt (Time) und geographischer Bezug (Space) 


e  _Querschnittsstudien: 


e Merkmale werden für eine Stichprobe (Sample = 1) einer geographischen Einheit (Space = 1) 
zu einem einzelnen Zeitpunkt (Time = 1) untersucht, z.B. werden alle 18-jährigen Personen in 
Deutschland im Jahr 2018 zu einem Thema befragt. Es entsteht ein Datensatz mit n Befragten 
und z Variablen, die die befragten Merkmale aus dem Fragebogen erfassen. 

« In vergleichender Perspektive werden je ein Sample (> 1) mit unterschiedlichem geographischen 
Bezug (Space > 1) zu einem Zeitpunkt (Time = 1) untersucht, z.B. das Wahlverhalten von Wahl- 
berechtigen in unterschiedlichen Staaten. Es wird ein Datensatz je Sample mit n Befragten und 
z Variablen erzeugt und für Analysezwecke während der Datenaufbereitung und Dokumentation 
in einen Datensatz integriert; es entsteht ein sogenannter integrierter Datensatz. 


« Vergleichende Studien im Zeitverlauf — Trendstudien: 


e Hier werden Merkmale anhand von unterschiedlichen Stichproben der gleichen Grundgesamt 
(Sample > 1) und gleichem geographischen Bezug (Space = 1) zu verschiedenen Zeitpunkten 
(Time > 1) untersucht, z.B. indem alle 18-Jährigen eines Landes im Jahr 2016, 2017 und 2018 
befragt werden. Hieraus entstehen, je nach Anzahl der Erhebung, x einzelne Datensätze mit der 
den Fragenitems entsprechenden Anzahl von Variablen, die ab der zweiten Erhebung ebenfalls 
integriert werden können. Da sich die Antworten mit den Erhebungszeitpunkten anhäufen, 
spricht man auch von einem kumulierten Datensatz. 

+ Eine besondere Form des Untersuchungsdesigns stellen Panelstudien dar. Hier wird eine Stich- 
probe (Sample = 1) mit dem gleichen geographischen Bezug (Space = 1) wiederholt zu ver- 
schiedenen Zeitpunkten (Time > 1) befragt. 

e Vergleichende Studien unterschiedlicher geographischer Räume im Zeitverlauf: 

e Dieses komplexe Studiendesign untersucht je ein Sample der gleichen Grundgesamt (Sample 
= 1) in verschiedenen Ländern (Space > 1) zu unterschiedlichen Zeitpunkten (Time > 1). Mit 
diesem Studiendesign wird eine große Anzahl einzelner länderspezifischer Datensätze je Erhe- 
bungszeitpunkt generiert, die mit jeder neuen Erhebungswelle zunehmen. Entsprechend auf- 
wendig sind die Erstellung eines integrierten Datensatzes und seine Erweiterung, wenn neue 
Daten einer Welle in diesen Datensatz aufgenommen werden sollen. 


Quelle: Eigene Darstellung 


Somit müssen die einzelnen Variablen zunächst bestimmt, ggf. transformiert und eindeutig 
benannt werden. So kann beispielsweise die Frage nach dem Geburtsjahr einer Person zu- 
nächst in das approximierte Alter der Person transformiert (Jahr der Datenerhebung minus 
Geburtsjahr) und als neue Variable abgelegt werden. Diese sollte dann, ebenso wie die Aus- 
gangsvariable (Geburtsjahr), mit einem sprechenden Namen versehen werden, wie z.B. Alter 
der befragten Person. Daran anschließend müssen die Variablen gelabelt, d.h. näher beschrie- 
ben werden. Label steigern die Verständlichkeit der Variable durch zusätzliche Informatio- 
nen, die z.B. ersichtlich machen, dass es sich bei der Variable Alter um das Alter der jewei- 
ligen Person handelt. Darüber hinaus kann das Label auch Informationen dazu liefern, dass 
die Variable Alter aus der Angabe zum Geburtsjahr abgeleitet wurde. 

Analog müssen die einzelnen Werte jeder Variable mit eindeutigen Wertenamen verse- 
hen werden. Dies mag bei Angaben zum Alter trivial wirken, doch auch hier muss klar sein, 
ob die Werte der Variable z.B. in Jahren, Monaten oder Tagen angeben sind. Die Relevanz 
eindeutiger Wertelabels lässt sich am Beispiel einer (dichotomen) Variable (0/1 kodiert), 
etwa zum Geschlecht der Person, verdeutlichen. Hier muss schriftlich fixiert werden, welcher 
Wert (0 oder 1) welches Geschlecht (weiblich oder männlich) wiedergibt. Dieses betrifft 
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nicht nur giiltige Angaben, wie weiblich oder mannlich, sondern z.B. auch fehlende Werte 
oder Antwortverweigerungen. 

Im Verlauf der weiteren Datenaufbereitung bis hin zur Erstellung eines vollständigen 
Forschungsdatensatzes für die Analyse können dann schrittweise zusätzliche Variablen z.B. 
für Befragte, Länder oder Zeitpunkte (administrative Variablen) oder zur Gruppierung von 
Merkmalen bzw. zur Generierung weiterer Indizes (inhaltliche Variablen) definiert werden. 
Im Verlauf der Datenanalysen können Variablen ergänzt, modifiziert oder harmonisiert wer- 
den. Darüber hinaus müssen die Daten in der Aufbereitung auf eventuelle logische Fehler — 
z.B. die befragte Person ist 273 Jahre alt —, inkonsistentes Antwortverhalten — z.B. eine be- 
fragte Person in einem Singlehaushalt macht Angaben zu anderen (Mit-)Bewohner/innen — 
etc. kontrolliert und der Prozess der Datenerhebung und -aufbereitung entsprechend doku- 
mentiert werden. 

Ein vorausschauendes Forschungsdatenmanagement berücksichtigt dabei die Prozesse 
der Datenerhebung und -aufbereitung und seine konkreten zeitlichen Abläufe und Einzel- 
schritte, die in den gesamten Forschungsprozess integriert werden müssen. Die Grundlage, 
wie die Daten dann im Prozessverlauf im Detail definiert, aufbereitet und bereinigt werden, 
wird durch entsprechend dokumentierte Standardregeln und Konventionen festgelegt (vgl. 
Netscher/Eder 2018; Ebel/Trixa 2015; Lück/Landrock 2014; Jensen 2012). 


2.2 Forschungsprozess und der Lebenszyklus von Forschungsdaten 


Im Umgang mit sozialwissenschaftlichen Forschungsdaten lassen sich unterschiedliche Ak- 
teure in verschiedenen Rollen definieren. So können Forschende als Datenproduzierende in 
der Primärerhebung auftreten oder aber im Rahmen der Sekundäranalyse Nachnutzende be- 
reits existierender Daten sein (um ggf. selbst wieder Produzent neuer Daten zu werden). Dar- 
über hinaus bestehen verschiedene Einrichtungen und Organisationen, die u.U. Einfluss auf 
die Erzeugung bzw. die (Nach-)Nutzung der Forschungsdaten haben, wie etwa Wissen- 
schaftsorganisationen, Fachgesellschaften, Forschungsförderer oder Universitäten. Derartige 
Einrichtungen bringen ihre jeweiligen Perspektiven im Umgang mit den Forschungsdaten 
ein, erlassen (institutseigene) Richtlinien und Verpflichtungen, setzen Rahmenbedingungen 
für Forschungsvorhaben oder erstellen Empfehlungen zur richtigen Handhabung von For- 
schungsdaten. Zu diesen Organisationen zählen schließlich auch Dateninfrastruktureinrich- 
tungen, wie Datenarchive oder Repositorien, die Forschungsdaten ggf. weiter aufbereiten 
und dokumentieren, vor allem aber archivieren, kuratieren und Dritten zur Nachnutzung be- 
reitstellen (vgl. Abschnitt 2.3.2). 

Die Themen in diesem Buch orientieren sich vor diesem Hintergrund an den konkreten 
Herausforderungen und Zielen von Datenproduzierenden und Datennutzenden, die mit der 
praktischen Planung von Forschungsvorhaben und ihre Umsetzung im laufenden Projekt ver- 
bunden sind. Einzelne Einrichtungen und Organisationen werden dabei in die Diskussionen 
mit einbezogen, soweit dies für die jeweilige Thematik zielführend ist. Der vorliegende Ab- 
schnitt fokussiert daher zunächst grundlegende Begriffe und Konzepte, deren Verständnis in 
den weiteren Kapiteln des Buches vorausgesetzt wird. 
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2.2.1 Die praktische Rolle von Lebenszyklusmodellen im Forschungsdatenmanagement 


Die Nutzung von Phasen- bzw. Lebenszyklusmodellen ist in der Forschung und im For- 
schungsdatenmanagement weitverbreitet und wird je nach Gegenstand und Zielsetzung un- 
terschiedlich stark differenziert. Solche Modelle beziehen sich auf ganz unterschiedliche As- 
pekte der empirischen Forschungstätigkeit. Aktivitäten und Abläufe des Forschungsprozes- 
ses reichen von der Formulierung des Forschungsproblems über die Planung des Studiende- 
signs bis zur Erhebung, Aufbereitung, Auswertung der Daten und der Publikation von For- 
schungsergebnissen. Zur detaillierten Beschreibung der Phasen des Forschungsprozesses sei 
hier auf die Darstellungen in Lehrbüchern zu den Methoden der empirischen Sozialforschung 
verwiesen (vgl. u.a. Baur/Blasius 2014; Schnell/Hill/Esser 2013; Diekmann 2007). 

Im Kontext des Forschungsdatenmanagements und der Kultur des Data Sharing haben 
Modelle zum Lebenszyklus von Forschungsdaten eine spezifische Popularität erlangt. Sie 
sind ein hilfreiches Werkzeug zur Planung und Umsetzung komplexer Arbeitsabläufe, die 
speziell auf den praktischen Umgang mit den Daten im Forschungsprozess — im weitesten 
Sinne - fokussiert sind. Sie ergänzen die Phasen des Forschungsprozesses und typische Pro- 
jektabläufe, indem sie explizit die Sicherung, Archivierung, Erschließung und Nachnutzung 
von Forschungsdaten nach Projektende thematisieren. 

In einer sehr einfachen Form lassen sich fünf grundlegende Phasen des Lebenszyklus von 
Forschungsdaten definieren: 


1. Die Recherche nach bereits vorhandenen Daten dient zum einen der Kontrolle, ob zur Bearbeitung 
des Forschungsvorhabens nicht bereits existierende Forschungsdaten genutzt werden können, zum 
anderen ist sie Ausgangspunkt der Planung des eigenen Messinstruments. 

2. In der Phase der Studienplanung wird die Sammlung der notwendigen Informationen konkret ge- 
plant. Dies betrifft die Definition der Untersuchungsobjekte bzw. Merkmalsträger, das Studiende- 
sign, die Erstellung des Messinstruments etc. 

3. Darauf aufbauend werden in der Phase der Datenerhebung die Informationen gesammelt, aufbereitet 
und in eine entsprechende Datenstruktur überführt. 

4. Inder daran anschließenden Phase der Datenanalyse liegt zumeist das eigentliche Interesse der For- 
schenden. Hier werden die zuvor erstellten Forschungsdaten mit Blick auf die zugrunde liegende 
Forschungsfrage ausgewertet. 

5. Die letzte Phase umfasst die langfristige Sicherung der genutzten Forschungsdaten zu Replikations- 
zwecken bzw. deren Bereitstellung zur Nachnutzung durch Dritte. 


Diese Phasen schaffen einen ersten groben Überblick über die wichtigsten Ereignisse, die 
beim Umgang mit Forschungsdaten und damit im Kontext des Forschungsdatenmanage- 
ments von Bedeutung sind. Um Anforderungen an Arbeitsabläufe, Regeln und Konzepte des 
jeweiligen Forschungsvorhabens konkret zu planen, sind die genannten Phasen ggf. durch 
weitere zu ergänzen und die jeweiligen Datenereignisse im Lebenszyklus zu definieren. Dazu 
wurde mittlerweile — je nach Typ und Herkunft der Daten und disziplinspezifischer Frage- 
stellung des Forschungsdatenmanagements — eine Vielzahl von Lebenszyklusmodellen und 
-typologien entwickelt (vgl. Cox/Tam 2018; Carlson 2014; Ball 2012). 

Praxisbezogene Publikationen im sozialwissenschaftlichen Kontext nutzen Lebenszyklen 
zur Beschreibung von Leitlinien und Best-Practice-Empfehlungen zur Gestaltung von Ar- 
beitsabläufen, Regeln und Konzepten im Rahmen des Managements von disziplinspezifi- 
schen Forschungsdaten (vgl. Corti et al. 2014; ICPSR 2012; Jensen 2012). Andere Modelle 
wiederum sind auf bestimmte Studientypen ausgelegt, wie z.B. Längsschnittstudien oder 
Kulturvergleiche (vgl. CCSG — Cross-Cultural Survey Guidelines 2018). Solche praxisnahen 
Modelle und Empfehlungen lassen sich an die konkreten Bedürfnisse und Anforderungen 
des jeweiligen Forschungsvorhabens anpassen. Sie dienen insofern als Blaupause zur pro- 
jektspezifischen Planung notwendiger Arbeitsschritte und Maßnahmen entlang der Phasen 
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mit datenrelevanten Ereignissen. Ausgehend von den konkreten datenbezogenen Anforde- 
rungen wird fir jede einzelne Phase festgelegt, welche spezifischen Forschungsdaten- 
managementkonzepte und Arbeitsschritte wann, wie und von wem umgesetzt werden sollen. 
Auf dieser Grundlage kann auch der Bedarf an Ressourcen für die unterschiedlichen Maß- 
nahmen und Aktivitäten des Forschungsdatenmanagements abgeschätzt werden. In diesem 
Zusammenhang wird im Folgenden das Data Lifecycle Model derData Documentation Initi- 
ative (DDI) als Standard zur Dokumentation sozialwissenschaftlicher Daten vorgestellt. 


2.2.2 Daten und Metadaten entlang des DDI Data Lifecycle 


Der DDI-Standard ist ein internationaler De-Facto-Standard zur Beschreibung von Daten aus 
Umfragen und anderen Beobachtungsmethoden in den Sozial-, Verhaltens-, Wirtschafts- und 
Gesundheitswissenschaften, der von der DDI-Alliance entwickelt wird. Der Fokus liegt auf 
Mikrodaten aus unterschiedlich komplexen Umfragen oder aus administrativen Quellen und 
schließt auch die Beschreibung aggregierter Daten ein. Zur systematischen Strukturierung, 
Erfassung und Organisation der Informationen einer Studie (Daten und Metadaten) hat die 
Alliance einen disziplinspezifischen DDI Data Lifecycle (2018) entwickelt. Dieser identifi- 
ziert acht abgrenzbare Phasen, die den Lebenszyklus der Produktion von Forschungsdaten 
systematisch strukturieren. Das Model bildet die konzeptuelle Basis zur Erfassung von In- 
formationen über Daten (d.h. Metadaten) entlang der Phasen ihres Lebenszyklus. Gleichzei- 
tig liefert das Modell eine anschauliche Grundlage zur Planung von datenbezogenen Ereig- 
nissen und Anforderungen an die Datendokumentation im Rahmen des Forschungsdatenma- 
nagements. 

Zum grundlegenden Verständnis für die folgenden Kapitel dieses Buches, die sich impli- 
zit oder explizit auf den DDI-Standard und dessen Lebenszyklusmodell beziehen, wird der 
DDI Data Lifecycle, wie in Abbildung 2.1 zu sehen, kurz vorgestellt. Die Phasen müssen 
nicht notwendigerweise linear, d.h. von Anfang bis Ende, durchlaufen werden. Vielmehr er- 
möglicht das Modell, jede einzelne Phase unabhängig von den anderen Phasen hinsichtlich 
der spezifischen datenbezogenen Ereignisse und Anforderungen an die Dokumentation der 
Daten zu betrachten. Dabei geht das Lifecycle-Konzept davon aus, dass die jeweils spezifi- 
schen Informationen über Daten an den Stellen erfasst werden, an denen sie entstehen und 
für besondere Zwecke erforderlich sind. 

In der Phase Studienplanung (Concept) wird die Studienkonzeption entwickelt, indem 
das Projekt Forschungsfrage und Methodik der Untersuchung und Verfahren zur Erhebung 
der Daten festlegt. Teil der Studienplanung ist neben der klassischen Literaturrecherche zum 
Forschungsstand auch die Erschießung und Evaluierung vorhandener Daten, die zur eigenen 
Forschungsfrage vorliegen. Bei der Festlegung des generellen Studiendesigns in Abhängig- 
keit von der Fragestellung (z.B. Querschnittsstudie; Vergleich über Raum und Zeit; Experi- 
ment etc.) sind methodische Fragen der zu untersuchenden Population, wie etwa zur Grund- 
gesamtheit, Stichprobe oder zum Auswahlverfahren, zu klären. Wird ein standardisierter Fra- 
gebogen genutzt, sind konkrete Beobachtungen (wie z.B. Alter) und theoretische Konstrukte 
(wie z.B. Einkommen) in geeignete Fragetypen und Frageitems auf Grundlage von (bereits 
vorhandenen) Messkonzepten, Skalen und Indizes umzusetzen (Operationalisierung) und zu 
testen (Validität; Reliabilität). Mit der Entscheidung über den Aufbau des Messinstruments 
wird zugleich auch die Grundlage für die Definition der Daten des späteren Datensatzes und 
seiner inhaltlichen Variablen gelegt. Die Dokumentation, welche Methoden der empirischen 
Sozialforschung zur Produktion empirischer Forschungsdaten genutzt wurden, ist ein zent- 
raler Inhalt der Informationen über Daten in dieser Phase. Diese Kontextinformationen über 
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die Art und Weise der Produktion von Forschungsdaten sind über ein Vorhaben hinaus un- 
verzichtbar, wenn Daten replizierbar und nachnutzbar bleiben sollen. 


Abbildung 2.1: DDI Data Lifecycle 


=. lection 


*Initial concepts “Questionnaire 
“Coded instrument 
“CAI metadata 
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Quelle: DDI Data Lifecycle (2018) 


In der Phase der Datenerhebung (Collection) wird die Befragung durchgeführt, ggf. in Ko- 
operation mit einem Erhebungsinstitut. In dieser Phase fallen — über die erhobenen Daten 
hinaus — weitere Informationen über die Produktion der Daten an. Dies betrifft insbesondere 
den tatsächlich eingesetzten Fragebogen und die Form der Befragung, wie z.B. persönlich- 
mündlich, telefonisch, schriftlich, mit oder ohne Interviewer bzw. Computereinsatz etc. Da- 
bei ist es aus Sicht des Forschungsdatenmanagements durchaus eine Herausforderung, diese 
Erhebungsformen im Interesse der späteren Datenarchivierung und -nachnutzung transparent 
und nachvollziehbar zu dokumentieren. Gleiches gilt für Informationen, die — neben den Da- 
ten — durch deren Erhebungsprozess entstehen. Diese sogenannten Paradaten dienen der Pro- 
zess- und Qualitätskontrolle der Durchführung einer Befragung (vgl. Felderer/Birg/Kreuter 
2014: 357). 

Die Phase Datenaufbereitung und -analyse (Processing) ist der nächste zentrale Ab- 
schnitt des Lebenszyklusmodells. In dieser Phase werden die erhobenen Daten im For- 
schungsprojekt durch inhaltliche bzw. administrative Variablen ergänzt, die Datensatzstruk- 
tur endgültig definiert und die erhobenen Daten aufbereitet. Dabei entstehen Kontextinfor- 
mationen, die für das Verständnis der Daten und für das Arbeiten mit ihnen notwendig sind. 
Gleichzeitig werden in dieser Phase die Daten systematisch auf Fehler geprüft und bereinigt. 
Erst auf dieser Grundlage kann der analysefähige Datensatz zur eigentlichen Auswertung 
erstellt werden. Die zugrunde liegenden Maßnahmen und Regeln der Datendefinition und 
der Datenbereinigung sind relevante Informationen über den Umgang mit den Daten, die zur 
Sicherung der Datentransparenz und Datenqualität in Codebüchern oder Methodenberichten 
dokumentiert werden sollten. Die Prozesse der wissenschaftlichen Datenanalyse der zuvor 
erhobenen Primärdaten sind nicht Gegenstand des gezeigten DDI-Data-Lifecycle-Modells. 
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Die Datenprodukte aus der Datenaufbereitung können dann entweder in die Phase der 
Datenarchivierung oder der Datenbereitstellung übergehen, wenn ein z.B. ein Forschungs- 
projekt im Rahmen eigener Ressourcen die Daten bereitstellt. In der Phase der Datenarchi- 
vierung (Archiving) werden die Forschungsdaten in einem Archiv oder einem Datenreposi- 
torium zu Replikationszwecken oder zur langfristigen Nachnutzung gesichert. Die Informa- 
tionen tiber Daten werden in diesem Kontext durch unterschiedliche Arten von Metadaten 
für spezifische Zwecke neu erstellt, die u.a. der Aufnahme und Archivierung der Daten unter 
Berücksichtigung des Datenschutzes dienen und den Datensatz als Ganzes sowie die darin 
enthaltenen Variablen beschreiben. 

In der Phase der Datenbereitstellung (Distribution) werden vor allem Regelungen festge- 
legt, wie, von wem und zu welchem Zweck die Daten datenschutzkonform genutzt werden 
können und wie die Daten zitiert werden können. Weitere Informationen beschreiben außer- 
dem u.a. den Umfang und technische Formate der bereitgestellten Daten und der dazugehö- 
rigen Dokumentationen. 

Eng mit der Datenbereitstellung verbunden ist die darauffolgende Phase der Datensuche 
(Discovery). Daten, die nachnutzbar sein sollen, müssen auffindbar und zugänglich sein. 
Dazu werden in Archiven oder Datenrepositorien gespeicherte Daten in Datenkatalogen pu- 
bliziert. Damit Forschende diese Bestände gezielt nach für sie relevante Daten durchsuchen 
können, informieren indexierte Metadaten über die wesentlichen Aspekte wie Inhalt, Metho- 
dik, Verfahren, Untersuchungseinheit, Gebiet und Zeitraum der Datenerhebung. Sie beinhal- 
ten Angaben zu den Datenproduzierenden, zur Zitation der Daten sowie zu bereits bestehen- 
den Publikationen auf Basis dieser Daten. Die Zusammenstellung dieser Informationen in 
einem Datenkatalog wird Studienbeschreibung genannt. Im Rahmen vorher festgelegter Zu- 
gangs- und Vertriebsbedingungen sind die Daten so zur weiteren Analyse (Analysis) verfüg- 
bar. 

Die letzte Phase des DDI-Lifecycles thematisiert daher auch direkt die Datennachnutzung 
(Repurposing). Im Sinne einer Sekundärnutzung behandelt das Modell Informationen über 
Daten, die im Zuge der Harmonisierung von (großen) Datenbeständen und entsprechenden 
Datentransformationen durch nachgelagerte Projekte entstehen. Die Ergebnisse solcher Har- 
monisierungsprojekte können dann wieder zu neuen Informationen über Daten in der Phase 
der Datenaufbereitung (Processing) führen. Um die Vergleichbarkeit von Daten eines Um- 
frageprogramms zu ermöglichen, werden z.B. vergleichbare Variablen aus unterschiedlichen 
Erhebungszeitpunkten harmonisiert, z.B. um dadurch eine Zeitreihe zu erstellen. Diese kön- 
nen ihrerseits als neue Daten die nachfolgenden Phasen des Data-Lifecycles durchlaufen. 


2.3 Forschungsdatenmanagement in den Sozialwissenschaften 


Lebenszyklusmodelle wie der DDI Data Lifecycle organisieren die Datenproduktion und die 
dabei entstehenden Informationen von Planung bis zur Bereitstellung und Nachnutzung der 
Daten, um Forschende bei der Erstellung qualitativ hochwertiger Daten zu unterstützen. Zu 
bedenken ist jedoch, dass Lebenszyklusmodelle nicht unbedingt dafür entwickelt wurden, 
den Umgang mit Daten im Sinne des Forschungsdatenmanagements insgesamt zu planen. 
Forschungsdatenmanagement, verstanden als Summe aller Strategien, Maßnahmen, Kon- 
ventionen, Arbeitsabläufe etc., die den Umgang mit Forschungsdaten im Projektverlauf und 
darüber hinaus regeln, beinhaltet auch organisatorische, technische und administrative As- 
pekte, die nicht explizit Gegenstand eines datenzentrierten Lebenszyklusmodells sind. 
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2.3.1 Forschungsdatenmanagement entlang des Lebenszyklus 


Die einzelnen Maßnahmen des Forschungsdatenmanagements werden entlang des Lebens- 
zyklus der Forschungsdaten geplant und die entsprechenden Aktivitäten in der jeweiligen 
Phase umgesetzt. Dabei ist zu berücksichtigen, dass verschiedene Aktivitäten und Maßnah- 
men quer zum Lebenszyklus liegen und mehrere, wenn nicht sogar alle Phasen betreffen. 

Dies gilt zuallererst für eine systematische Vorbereitung des Forschungsdatenmanage- 
ments im Rahmen der eigentlichen Projektplanung. Diese muss über den gesamten Projekt- 
verlauf stetig aktualisiert und an sich ändernde Gegebenheiten angepasst werden. Nur durch 
vorausschauendes Handeln und eine planvolle Herangehensweise kann sichergestellt wer- 
den, dass im Laufe des Forschungsprojekts qualitativ hochwertige Forschungsdaten erstellt 
und für die Analyse genutzt werden können. Kapitel 3 dieses Buches befasst sich daher näher 
mit der Planung und Umsetzung des Forschungsdatenmanagements. 

Zweitens läuft die Frage der Organisation der Forschungsdaten quer zu ihrem Lebens- 
zyklus. Über den gesamten Projektverlauf und darüber hinaus ist sicherzustellen, dass die 
richtigen Daten in der richtigen Version weiterverarbeitet, dokumentiert und analysiert wer- 
den. Die Daten müssen dabei in ihren unterschiedlichen Stadien, wie etwa Rohdaten und 
aufbereitete Forschungsdaten, ausreichend gegen Verlust und unautorisierten Zugriff ge- 
schützt und ggf. zwischen den Projektbeteiligten kommuniziert bzw. transferiert werden, wie 
in Kapitel 5 näher ausgeführt wird. 

Drittens werden in den Sozialwissenschaften häufig Informationen über Menschen ge- 
sammelt und analysiert. Dabei kommen datenschutzrechtliche Maßnahmen zum Einsatz, die 
überprüfen, ob die Daten überhaupt erhoben, gespeichert und verarbeitet werden dürfen. Dies 
betrifft zunächst einmal die informierte Einwilligung der befragten bzw. beobachteten Per- 
sonen. Die Einwilligung muss spätestens in der Phase der Studienplanung vorbereitet, in der 
eigentlichen Datenerhebung eingeholt und bis zu der endgültigen Vernichtung der Daten 
über alle weiteren Lebensphasen hinweg verwaltet werden. Darüber hinaus müssen die be- 
troffenen Personen vor negativen Folgen aufgrund der Befragung oder Beobachtung ge- 
schützt werden. Kapitel 4 befasst sich in diesem Zusammenhang mit der Anonymisierung 
von Umfragedaten und liefert Ansätze und Beispiele für den rechtskonformen Umgang mit 
Forschungsdaten. 

Demgegenüber lassen sich andere Maßnahmen des Forschungsdatenmanagements au- 
genscheinlich konkreten Phasen im Lebenszyklus der Daten zuweisen. So ist das inhaltliche 
Füllen einer Datenmatrix zwar erst nach oder frühestens im Laufe der eigentlichen Datener- 
hebung möglich. Dennoch sollte die Datenmatrix bereits vor dieser Phase als Blaupause auf- 
gesetzt werden. Dies dient neben der Planung der eigentlichen Datenerhebung und ihrer Do- 
kumentation zudem der Implementierung geeigneter Maßnahmen zur Kontrolle der Daten- 
qualität sowie zur Entwicklung von Richtlinien zur Datenaufbereitung, wie in Kapitel 6 näher 
beschrieben. Zwar setzen die meisten dieser Maßnahmen und Arbeitsabläufe erst in bzw. 
nach der Phase der Datenerhebung an, sie müssen aber bereits in der Projektplanung und der 
Erstellung des Studiendesigns bzw. des Messinstruments angegangen werden. 

Spezifische Metadaten und Standards sind — implizit oder explizit — in alle Phasen des 
Lebenszyklus eingebunden. Metadatenstandards unterstützen die Zitierbarkeit und Wieder- 
auffindbarkeit von Forschungsdaten und liefern damit einen zentralen Beitrag zum guten 
wissenschaftlichen Arbeiten und zur Anerkennung der Leistung von Forschenden im Kon- 
text des Forschungsdatenmanagements. Kapitel 10 befasst sich ausführlich mit grundlegen- 
den Konzepten und Services, die das Zitieren von Forschungsdaten in wissenschaftlichen 
Arbeiten ermöglichen. Darüber hinaus sind Informationen über die Daten entlang des gesam- 
ten Lebenszyklus von zentraler Bedeutung, um Daten zu finden, mit ihnen zu arbeiten und 
sie zu analysieren, wie in Kapitel 9 ausführlich erörtert wird. 
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Analog zur Phase der Aufbereitung ist auch die Archivierung der Forschungsdaten im 
DDI Data Lifecycle als einzelner Schritt dargestellt. Doch bereits die Vorbereitung der Ar- 
chivierung, die Ubergabe der Daten an ein Datenarchiv oder Repositorium und die Sicher- 
stellung der rechtskonformen Nachnutzbarkeit der Daten durch Dritte ist keineswegs ein ein- 
zelner kleiner Schritt im Leben der Forschungsdaten. Vielmehr setzt auch hier ein planvolles 
Forschungsdatenmanagement frühzeitig im Lebenszyklus der Daten an und bereitet die Er- 
stellung und Übergabe zu archivierender Daten und Dateien systematisch vor. Kapitel 7 be- 
fasst sich näher mit den verschiedenen Möglichkeiten der längerfristigen Sicherung und Be- 
reitstellung von Forschungsdaten. 

Jenseits der Phase der Datenarchivierung wurden am Beispiel des DDI-Data-Lifecycles 
Abläufe im Kontext der Harmonisierung von großen Datenbeständen aufgezeigt, um den Be- 
stand vergleichbarer Daten zu erweitern. Dem erfahrenen Datennutzenden wird aber aufge- 
fallen sein, dass die Nachnutzung von Daten im Kontext von Projekten zu Sekundäranalysen 
in diesem Modell nicht als eigene — spezialisierte — Phase ausgewiesen ist. Explizit wird nur 
auf die Erstellung von Codes und Routinen zur Replikation sowie auf Aspekte der Harmoni- 
sierung bereitgestellter Daten hingewiesen. Deshalb erörtert Kapitel 8 einige bislang ver- 
nachlässigte Fragen im Forschungsdatenmanagement in der Sekundäranalyse. 


2.3.2 Die Rolle von Forschungsdateninfrastrukturen im Forschungsdatenmanagement 


In diesem Kapitel wurde der Umgang mit Forschungsdaten bislang hauptsächlich aus der 
Sicht von Datenproduzierenden bzw. Datennutzenden thematisiert. Dabei wurde wiederholt 
auf die Nutzung von Datenarchiven und Repositorium hingewiesen. Wie solche Infrastruk- 
turen Forschende und ihre Forschungsvorhaben beim Forschungsdatenmanagement unter- 
stützen können, soll im Folgenden kurz erörtert werden. 

Forschungsinfrastrukturen stellen grundlegende Einrichtungen, Ressourcen und Dienst- 
leistungen im Wissenschaftssystem bereit, um die Wissenschaftsgemeinschaft bei ihrer For- 
schung langfristig zu unterstützen. Seit den 1920er Jahren wird der Begriff zunächst nur für 
die naturwissenschaftliche Forschung mit großen technischen Anlagen benutzt. Im Zuge 
neuer digitaler Informations- und Kommunikationstechnologien wurden seit den 1970er Jah- 
ren auch in den Geistes- und Sozialwissenschaften eigene Forschungsinfrastrukturen aufge- 
baut oder weiterentwickelt. Die neuen Technologien erlaubten es, Informationen und empi- 
rische Forschungsdaten schrittweise immer effizienter und qualifizierter (digital) zu organi- 
sieren und bereitzustellen. Der Typus Informationsinfrastrukturen kennzeichnet dabei Ein- 
richtungen wie Bibliotheken, Sammlungen und Archive (RfII — Rat für Informationsinfra- 
strukturen 2016; Wissenschaftsrat 2011). Im Zuge von nationalen wie internationalen Initia- 
tiven zur Verbesserung und Weiterentwicklung von Infrastrukturen für die Erhebung, Archi- 
vierung und Bereitstellung von Forschungsdaten etablierte sich in den Sozial- und Wirt- 
schaftswissenschaften der Begriff Forschungsdateninfrastrukturen (vgl. Rfll 2016:2). 

In Deutschland werden die meisten Forschungsdateninfrastrukturen durch Bund und Län- 
der, das Bundesministerium für Bildung und Forschung (BMBF) oder die DFG gefördert. So 
wurde beispielsweise im Zuge der Empfehlungen zur Weiterentwicklung der Dateninfra- 
struktur der Rat für Sozial- und Wirtschaftsdaten (RatSWD) 2004 gegründet (vgl. KVI 2001). 
Seitdem hat der RatSWD im Rahmen seiner Aufgaben zur Förderung der disziplinspezifi- 
schen Dateninfrastruktur über dreißig datenproduzierende Forschungsdatenzentren (FDZ) 
aus unterschiedlichsten Fachdisziplinen akkreditiert. Dadurch verpflichten sich die For- 
schenden, ihre Daten qualitätsgesichert und datenschutzkonform sowie möglichst einfach zur 
Verfügung zu stellen (vgl. RatSWD Arbeitsprogramm 2017-2020). 
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Teil der sozialwissenschaftlichen Forschungsdateninfrastruktur sind forschungsbasierte 
Einrichtungen der Wissenschaftsgemeinschaft Gottfried Wilhelm Leibniz e.V. (kurz Leib- 
niz-Gemeinschaft). Dazu gehören u.a. das Leibniz-Informationszentrum Wirtschaft (ZBW) 
und das GESIS — Leibniz-Institut für Sozialwissenschaften. Die Forschungsdateninfrastruk- 
turen sind ihrerseits wiederum international vernetzt. So ist z.B. das GESIS Datenarchiv für 
Sozialwissenschaften auf europäischer Ebene eng mit den Dienstleistungen und Ressourcen 
des Consortium of European Social Science Data Archives (CESSDA ERIC) verzahnt. Kern- 
bestandteil der Forschungsdateninfrastrukturen sind die großen sozialwissenschaftlichen 
Umfrageprogramme, die auf nationaler, europäischer und transnationaler Ebene im Rahmen 
der Forschungsförderung etabliert wurden, wie etwa das Sozio-dkonomische Panel (SOEP), 
die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) oder das Euro- 
pean Social Survey (ESS) etc. (vgl. Wissenschaftsrat 2011: Anhang 1). 

Aus Sicht der Datenproduzierenden bzw. Datennutzenden stellt sich die Frage, welche 
praktischen Leistungen und Ressourcen Forschungsdateninfrastrukturen für ihr individuelles 
Forschungsvorhaben anbieten können. Zu nennen sind hier natürlich zuallererst die vielfäl- 
tigen Informations-, Beratungs- und Schulungsangebote, die an den spezifischen Bedarf von 
Forschenden und Disziplinen angepasst sind. Diese reichen von praktischen Handreichungen 
zum Forschungsdatenmanagement bis hin zu spezialisierten Informationsveranstaltungen, 
Workshops, Konferenzen oder Summer Schools. 

Betrachtet man die Leistungen und Ressourcen der Forschungsdateninfrastrukturen im 
Kontext des Lebenszyklus von Forschungsdaten, unterstützen Datenkataloge von Datenar- 
chiven, Repositorien oder Datenzentren Forschende in der Phase der Studienplanung bei ih- 
ren Recherchen nach bereits existierenden Datenbeständen und zugrundeliegenden Messin- 
strumenten. Diese Informationsbestände unterstützen — neben klassischen Literaturrecher- 
chen zum Forschungsthema — die weitere Planung des jeweiligen Forschungsvorhabens. So 
kann die Nachnutzung bereits bestehender Daten angesichts von deren Menge und Vielfalt 
eine effiziente Alternative zur eigenen Datenerhebung darstellen oder das Verknüpfen neu 
erstellter Daten mit bereits bestehenden Beständen ermöglichen. 

In den nachfolgenden Phasen der Datenerhebung und Datenaufbereitung geht es für For- 
schende zumeist um Fragen der Qualitätssicherung — sowohl mit Blick auf die erstellten Da- 
ten als auch in Bezug auf die z.B. im Rahmen der Feldarbeit anfallenden Kontextinformati- 
onen. Während Erhebungsinstitute Forschenden die Datenerhebung an sich abnehmen, fo- 
kussieren sich Forschungsdateninfrastrukturen in diesen Phasen vor allem auf Best-Practice- 
Empfehlungen, Richtlinien und Handreichungen. Zu nennen ist hier beispielsweise abermals 
der DDI Standard, der, wie in Kapitel 9 näher erörtert, auf Initiative von Datenarchiven im- 
plementiert wurde und auf deren Betreiben bis heute aktiv weiterentwickelt wird. Im Bereich 
der Datenaufbereitung entstehen auf Seiten der Forschungsdateninfrastrukturen zudem mehr 
und mehr Dienstleistungsangebote, etwa zur Datendokumentation auf Basis internationaler 
Standards, wie DDI. Diese sind z.T. zwar kostenpflichtig, nehmen den Datenproduzierenden 
jedoch erhebliche Arbeiten ab und schaffen so Freiräume für die eigentliche Forschung (vgl. 
GESIS Datenservices 0.J.). 

Für Forschende ist die Phase der Datenanalyse natürlich von zentralem Interesse, da sie 
der Überprüfung der zugrunde liegenden Forschungsfrage(n) dient und einen wesentlichen 
Bestandteil späterer Publikationen der erzielten Forschungsergebnisse darstellt. Dabei gilt 
der bereits mehrfach erwähnte Grundsatz guter wissenschaftlicher Praxis, nachdem diese Er- 
gebnisse über das eigentliche Forschungsprojekt hinaus replizierbar sein müssen. Demnach 
sollten Forschungsdaten, auf deren Basis Forschungsergebnisse publiziert wurden, auch nach 
dem Projektende aufbewahrt werden. Gerade qualitativ hochwertige Forschungsdaten sollten 
des Weiteren zur langfristigen Nachnutzung durch Dritte bereitgestellt werden, indem sie an 
Einrichtungen der Dateninfrastruktur übergeben werden. Forschungsdateninfrastrukturen 
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unterstiitzen dazu Forschende durch zweckorientierte Angebote. Beispielsweise verfiigen 
viele Hochschulen und Forschungseinrichtungen heute tiber unterschiedliche organisatori- 
sche und technische Dienste zur Sicherung, Archivierung und Bereitstellung von Daten, die 
in der eigenen Einrichtung produziert wurden. Die Nutzung solcher Dienste kann z.T. ver- 
bindlich durch Empfehlungen der Einrichtung zum Umgang mit Forschungsdaten geregelt 
sein. Dabei ist die jeweilige datenspezifische Ausrichtung einer Einrichtung oder eines Da- 
tenarchivs zu beriicksichtigen. So stellt das GESIS Datenarchiv vorrangig Dienste zur Selbst- 
Archivierung (vgl. GESIS datorium) sowie umfangreiche Services im Rahmen der Langzeit- 
archivierung fiir quantitative Umfragedaten (vgl. Quandt/Mauer 2012: 67) bereit. Weiterhin 
sind auch Entwicklungen wissenschaftlicher Verlage zu beriicksichtigen. Diese gehen mehr 
und mehr dazu über, Datensätze und Materialien, auf deren Basis Artikel in ihren Journalen 
veröffentlicht werden, zu sichern, um so deren Replizierbarkeit zu ermöglichen. Entspre- 
chende Dienste werden z.T. gemeinsam mit Forschungsdateninfrastrukturen (vgl. ZBW Jour- 
nal Data Archive) angeboten. Das Themenspektrum von der Sicherung bis zur langfristigen 
Nutzung von Forschungsdaten wird ausfiihrlich in Kapitel 7 behandelt. 

Ein spezieller Aspekt des Forschungsdatenmanagements stellt die Ermöglichung der Zi- 
tation von Forschungsdaten dar. Dem liegt die Forderung vieler Data Policies zugrunde, die 
Erzeugung und Bereitstellung von Forschungsdaten als Forschungsprodukt und somit als ei- 
genständige Forschungsleistung anzuerkennen. Um entsprechende credits zu ermöglichen, 
haben Forschungsdateninfrastrukturen Systeme mit dauerhaften Identifikatoren (Persistent 
Identifier) für Datensätze und zugehörige Informationstypen entwickelt. Persistent-Identi- 
fier-Systeme, wie URN, DOI oder Handle, dienen der dauerhaften Referenzierung digitaler 
Ressourcen, wie z.B. der Publikationen und Datensätze. In den sozialwissenschaftlichen For- 
schungsdateninfrastrukturen wird heute zumeist das DOI-System genutzt. Die Entwicklung 
solcher Systeme erfolgt initial durch entsprechend geförderte Infrastrukturprojekte mit meh- 
reren Partnern, die dann als Regelbetrieb verstetigt werden. Die Vergabe einer DOI ist in der 
Regel mit der Archivierung bzw. Publikation eines Forschungsdatensatzes über ein Datenar- 
chiv, Repositorium, Forschungsdatenzentrum oder einen Verlag verbunden, die an das DOI- 
System angeschlossen sind. Die DOI erfüllt dabei mehre Zwecke. Mit ihrer Hilfe können die 
Daten zitiert werden und sind so dauerhaft und weltweit identifizierbar sowie im Internet 
auffindbar. Dadurch wird zugleich der Datenzugang für die Nachnutzung und Replizierbar- 
keit der Daten erheblich vereinfacht. Weiterhin wird die Messung der Datennutzung durch 
die Aufnahme in Zitationsindizes gefördert. Somit erhöht sich die Reputation der Forschen- 
den ebenso wie die Sichtbarkeit der Daten. Erste empirische Untersuchungen zeigen, dass 
Publikationen, die auch die zugrunde liegenden Daten veröffentlichen, häufiger zitiert wer- 
den, als Veröffentlichen ohne Datennachweis (vgl. Piwowar/Vision 2013; Piwowar/Day/ 
Frisdma 2007). Die Anwendung und Organisation des DOI-Systems ist Thema von Kapitel 
10 in diesem Buch. 

Wie an verschiedenen Stellen gezeigt, erfassen standardisierte Metadaten komplexe In- 
formationen über die Daten und ihre Produzenten. Sie informieren entlang des Lebenszyklus 
von Daten über die Genese ihrer Entstehung bis hin zur Nachnutzung in neuen Forschungs- 
kontexten. Je nach Anforderungen und Zweck der Informationen über Daten, Personen, re- 
levante Quellen und Objekte der Forschung werden verschiedene Metadatenstandards (vgl. 
Jensen/Katsanidow/Zenk-Möltgen 2011) angewendet. Sie müssen zugleich zwischen ver- 
schiedenen technischen Systemen austauschbar, d.h. interoperabel, sein, damit Forschende 
z.B. in Suchportalen gebündelt auf Informationen zugreifen können, die aus verschiedenen 
Quellen stammen. Diese Aspekte werden in Kapitel 9 näher erörtert. Die Entwicklung und 
Implementierung von Metadatenstandards, technischen Systemen und Werkzeugen für die 
Erfassung und den Austausch von Metadaten erfolgt u.a. im Rahmen nationaler oder inter- 
nationaler Infrastrukturprojekte. 
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Der Rat für Informationsinfrastrukturen hat 2016 das Positionspapier „Leistung aus Viel- 
falt. Empfehlungen zu Strukturen, Prozessen und Finanzierung des Forschungsdatenmana- 
gements in Deutschland“ (RfII 2016) veröffentlicht, das facettenreich und informativ die 
vielfältigen Herausforderungen und Lösungsansätze in diesem Umfeld thematisiert. 


2.3.3. Neue Datentypen und Herausforderungen an das Forschungsdatenmanagement 


In den bisherigen Abschnitten sind Fragen des sozialwissenschaftlichen Forschungsdaten- 
managements mit Bezug auf die Erhebung und Nachnutzung von Umfragedaten thematisiert 
worden. Gleichzeitig wird diese Datenbasis verstärkt durch (digitale) Daten aus (neu verfüg- 
baren) Quellen erweitert, die ursprünglich nicht für Forschungszwecke enwickelt wurden. So 
stellt beispielsweise die Organisation for Economic Co-operation and Development (OECD 
2013: 12) zur Bedeutung derartiger Daten fest: 


[...] forms of social science data not specifically designed for re-search purposes are emerging as im- 
portant alternatives and additions to more standard sources. Various types of administrative data, while 
not new, have become newly accessible in the form of electronic records, while entirely new forms of 
social science data have emerged as a consequence of the internet revolution. 


Um welche Typen und neue Formen von Daten es sich dabei handelt, zeigt beispielhaft der 
Schaukasten 2.2 (vgl. OECD 2013; zu deutschen Datenquellen vgl. z.B. ZBW/GESIS/ 
RatSWD 2018). Die Daten der Kategorie A und B sind nur insofern neu, weil sie z.T. erst 
durch die schrittweise Öffnung dieser Datenbestände für Forschungszwecke erschlossen 
werden können. Relativ neu ist in den Sozialwissenschaften die Nutzung von vorhandenen 
Daten aus anderen Disziplinen, wie z.B. der Medizin oder den Geowissenschaften. Demge- 
genüber stellen die Daten der Kategorien C bis E eine Flut neuer Datentypen dar, die in un- 
terschiedlichsten Dateiformaten vorliegen können (Text, Bild, Audio) (vgl. OECD 2013; 
RatSWD 2012). 


Schaukasten 2.2: Beispiele für digital verfügbare neue Datentypen und neuartige Datenformen 


A Prozessproduzierte Daten (Mikrodaten) der öffentlichen Verwaltung, z.B. Meldesysteme, Steuern, 
Sozialversicherung, Arbeitsmarkt, Umwelt, Haus- und Landnutzung, Gesundheit, Wirtschaft 

B Daten der Amtlichen Statistik, wie Aggregat- oder Makrodaten, auf nationaler und internationaler 
Ebene, z.B. Destatis, Eurostat, OECD 

C Transaktionsdaten im Finanz-, Versicherungs- und Konsumsektor, z.B. Kaufverhalten, Mobilfunk- 
nutzung, Kundenkarten 

D Daten zur Internetnutzung, z.B. Suchbegriffe, Downloads, Weblogs, soziale Netzwerke, News 

E Trackingdaten, z.B. GPS, Verkehr, Internutzung, Kameraüberwachung, Satellitenbeobachtung 


Quelle: Eigene Darstellung 


Forschende in den Sozialwissenschaften nutzen diese neuen Typen und Formen ergänzend 
zu klassischen Umfragedaten. So werden z.B. Umfragedaten gemeinsam mit medizinischen 
Parametern (Biomarker) erhoben oder im Rahmen eines Forschungsvorhabens verknüpft 
(vgl. Jensen et al. 2015: 17f). Dadurch entstehen neue Forschungspotentiale und Erkenntnis- 
möglichkeiten. So hinterlassen etwa die Aktivitäten von Nutzenden auf Verkaufsportalen, 
Suchmaschinen oder sozialen Netzwerken digitale Verhaltensspuren — auch digitale Spuren- 
daten genannt — die es ermöglichen, Einstellungen und Verhaltensweisen zu analysieren. 
Derartige Daten können bewusst erzeugt sein, z.B. durch Beiträge auf Facebook, oder aber 
unbewusst und nicht direkt sichtbar gesammelt werden, z.B. wenn Metadaten über ein Kom- 
munikationsgeschehen den Zeitpunkt, das Gerät und den Standort der Kommunikation erfas- 
sen. 
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Solche neuen Datentypen und Datenformen sowie die zugrunde liegenden Datenquellen 
stellen das Forschungsdatenmanagement und die handelnden Akteure auf verschiedenen 
Ebenen vor neue Herausforderungen. Einige Aspekte sind im Schaukasten 2.3 beispielhaft 
ohne Anspruch auf Vollständigkeit zusammengestellt. 


Schaukasten 2.3: Herausforderungen im Umgang mit neuen Daten 


«  Forschungsprozess: 


« Entwicklung gemeinsamer Forschungsmethoden und -standards bei der Analyse von internet- 
basierten Kommunikationsformen; z.B. bei der Untersuchung politscher Kommunikation auf 
Social-Media-Plattformen 

e übergreifende Anforderungen an die Vergleichbarkeit von Studien und Ergebnissen aufgrund 
unterschiedlicher Konzepte sowie neuartiger Fragestellungen und Untersuchungsdesigns 

«  Grundanforderungen an die Dokumentation von Daten und Methoden zur Nachvollziehbarkeit 
von Ergebnissen. Sind Inhalt, Datengrundlage, Untersuchungseinheit, Methode der Datenerhe- 
bung sowie die Datenaufbereitung und -bereinigung unzureichend definiert und dokumentiert, 
wird dadurch das Verständnis von Daten und Analyseergebnisse erschwert. 


e Rechtliche und ethische Aspekte: 


« fehlende Zugangsmöglichkeiten zu privatwirtschaftlichen Internetdaten für Sekundäranalysen 

e  datenschutzrechtliche Anforderungen und Verfahren zur Wahrung der Anonymität von unter- 
suchten Personen und größtmöglichen Erhalt von Analysepotentialen für Forschungszwecke 

« ethische Fragen im Rahmen verantwortungsvoller Forschung beim Umgang mit medizinischen 
Informationen (Biomarker), internetbasierten Verhaltensspuren und prozessproduzierter admi- 
nistrativer Daten 


«  Dateninfrastrukturen: 


« technische Konzepte und Tools zum Umgang mit den Datenstrukturen neuer Datenformen 

« administrative Konzepte zum Umgang mit neuen Datenformen, Dateiformaten und Datenmen- 
gen im Rahmen der Arbeitsabläufe von Dateninfrastrukturen 

« Entwicklung von Strategien zur Datenanonymisierung neuer Datenformen 

« Anpassung inhaltlicher Standards zur Dokumentation neuer sozialwissenschaftlicher Daten- 
strukturen und ihrer methodischen Grundlagen 

+ Modifikation und Anpassung vorhandener Metadatenstandards wie DDI und Sicherung der In- 
teroperabilität mit Metadatenstandards anderer Disziplinen 

e technische Sicherung und Erhaltung neuer digitaler Datenformen, wie Social-Media-Daten 

«  Strategien und Kooperationen mit Anbietern bisher nicht zugänglicher Datenquellen 

+ Konzepte zum rechtsicheren Zugang und der Bereitstellung neuer Datenformen im Rahmen der 
aktuellen Datenschutzgesetze 


Quelle: Eigene Darstellung 


Diese Herausforderungen beim Umgang mit neuen Datenquellen und Datenformen beleuch- 
ten zwei Beiträge in diesem Buch. Grundsätzliche Fragen von Social-Media-Daten als For- 
schungsgrundlage thematisiert Kapitel 11. In diesem Kontext wird die prinzipielle Frage be- 
handelt, ob und unter welchen Bedingungen Daten von entsprechenden Kommunikations- 
plattformen überhaupt für wissenschaftliche Zwecke zugänglich sind. Damit einhergehend 
ist die Frage der Qualität entsprechender Daten im Licht unterschiedlicher Nutzungsaspekte 
von Forschenden zu prüfen. Schließlich sind im Kontext des Forschungsdatenmanagements 
sowohl die aktuelle Praxis als auch die Herausforderungen bei der Archivierung und der Er- 
möglichung der Nachnutzung von Social-Media-Daten gemeinsam mit Infrastruktureinrich- 
tungen kritisch zu diskutieren. Fehlende Standards und rechtliche Hürden verhindern es bis- 
lang, diesen Datentypus als robuste Forschungsgrundlage zu nutzen. 

Stellen Social-Media-Daten noch ein Moving Target (Weller 2015) in den Sozialwissen- 
schaften und dem sozialwissenschaftlichen Forschungsdatenmanagement dar, ist die Ver- 
knüpfung von Umfrage- und Geodaten ein einfacheres Unterfangen. Beide Datentypen sind 
nicht neu, ihre Verknüpfung stellt allerdings besondere Herausforderungen an Forschende. 
Auch hier ist die Kenntnis von bestehenden Schwierigkeiten eine wichtige Grundlage zur 
erfolgreichen Umsetzung eines entspechenden Forschungsvorhabens. Kapitel 12 thematisiert 
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in diesem Zusammenhang drei zentrale Herausforderungen an das Forschungsdatenmanage- 
ment. Erstens müssen sich Forschende ein entsprechendes Fachwissen zu Verfahren und 
Techniken der Georeferenzierung aneignen, um Umfrage- und Geodaten überhaupt verknüp- 
fen zu können. Damit gehen Anforderungen an die technische Ausstattung entsprechender 
Forschungsprojekte einher, z.B. in Bezug auf leistungsfähige Hardware und geeignete Soft- 
ware. Zudem sind organisatorische und lizenzrechtliche Voraussetzungen zu erfüllen, um 
Zugangs- und Nutzungsrechte zu den erforderlichen Daten zu erlangen. Ein zweiter Themen- 
kreis betrifft Herausforderungen des Datenschutzes und Risiken der Re-Identifikation bei der 
Produktion georeferenzierter Daten im Projektverlauf. Schließlich müssen drittens Geo- und 
Umfragedaten nachvollziehbar und transparent dokumentiert werden, um die Replizierbar- 
keit publizierter Ergebnisse ebenso wie die Nachnutzung der georeferenzierten Daten zu er- 
möglichen. 

Anhand dieser beiden Themenbereiche, d.h. die Nutzung von Social-Media-Daten bzw. 
die Verknüpfung von Umfrage- und Geodaten, werden exemplarisch einige neue Herausfor- 
derungen im Forschungsdatenmanagement aufgezeigt. Dabei sind die dort angesprochenen 
Probleme und die damit einhergehenden Entwicklungen im Forschungsdatenmanagement in 
keiner Weise erschöpfend. Die Diskussion zeigt jedoch eindringlich, dass es sich auch beim 
Forschungsdatenmanagement um keinen statischen Bereich der Sozialforschung handelt. 
Vielmehr ist es einem stetigen Wandel unterworfen. Das Forschungsdatenmanagement muss 
sich an neue Gegebenheiten, etwa im Bereich des Datenschutzes oder der Weiterentwicklung 
von Dokumentationsstandards, genauso anpassen wie an die Anforderungen neuer Datenty- 
pen. 


24 Zusammenfassung 


Ein professionelles Management von Forschungsdaten gewinnt in vielen Disziplinen eine 
immer größere Bedeutung. Dies geht mit der Etablierung des Forschungsdatenmanagements 
als Teil guter wissenschaftlicher Praxis einher, das die Replikation der Forschungsergebnisse 
ebenso wie der genutzten Daten erlaubt und es Dritten ermöglicht, mit den erstellten For- 
schungsdaten in neuen Kontexten weiterzuarbeiten. Daneben trägt die zunehmende Aner- 
kennung von (digitalen) Forschungsdaten als wertvolle Wissensquelle und eigenständiges 
Forschungsprodukt zu dieser gesteigerten Bedeutung weiter bei. In den Sozialwissenschaften 
zeigen sich seit der Jahrtausendwende vielfältige Bemühungen, das Management von For- 
schungsdaten systematisch und nachhaltig zu organisieren. 

Die Entwicklung eines professionellen Umgangs mit (sozialwissenschaftlichen) For- 
schungsdaten erfordert es, die Wertschöpfungskette entlang des gesamten Lebenszyklus die- 
ser Daten zu berücksichtigen. Nur so können Forschende sicherstellen, dass die im Projekt 
erstellten Daten zum Erreichen der Projektziele genutzt werden können, dass die produzier- 
ten Forschungsergebnisse replizierbar bleiben und die Daten durch Dritte für die unterschied- 
lichsten Zwecke nachgenutzt werden können. Das Forschungsdatenmanagement ist insge- 
samt mit komplexen Aufgaben und Zielen verbunden und stellt damit die Akteure des Wis- 
senschaftssystems im Rahmen ihrer jeweiligen Rolle vor unterschiedliche Herausforderun- 
gen. Diese Herausforderungen können entweder disziplinübergreifend bestehen oder sich auf 
Besonderheiten einzelner Disziplinen beziehen. So ist das Forschungsdatenmanagement in 
den Sozialwissenschaften einerseits in die übergreifenden Empfehlungen von Wissenschafts- 
organisationen und in die Leitlinien der Forschungsförderung eingebunden. Anderseits leis- 
ten spezialisierte Dateninfrastrukturen ihren Beitrag durch fachspezifische Dienstleistungen, 
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die Forschende etwa bei der Erschließung, Archivierung, Nachnutzung und Zitation von so- 
zialwissenschaftlichen Forschungsdaten unterstiitzen. Dazu stehen praxiserprobte Grunds- 
ätze und etablierte Lösungsansätze für Forschende zur Verfügung. Gleichzeitig stellen neu 
erschlossene Datenquellen, etwa aus fachfremden Disziplinen wie Medizin oder Geographie, 
sowie neue Datentypen, wie z.B. Social-Media-Daten, und deren Verknüpfung mit den ‚klas- 
sischen‘ sozialwissenschaftlichen Umfragedaten ein systematisches und nachhaltiges Ma- 
nagement der Daten vor neue Herausforderungen. 

Betrachtet man die Anforderungen des Forschungsdatenmanagements aus Sicht der For- 
schenden, so gehen die umzusetzenden Maßnahmen und Aktivitäten über die eigentliche (so- 
zial-)wissenschaftliche Forschungsarbeit im engeren Sinne hinaus. Während Forschende bei 
der Erstellung von Daten im Rahmen von Forschungsprojekten zumeist die Analyse der Da- 
ten mit Bezug auf eine oder mehrere konkrete Forschungsfragen verbinden, erfordert bei- 
spielswiese die Dokumentation von Daten zur Archivierung und Nachnutzung einen teils 
erheblichen zusätzlichen Aufwand an Zeit und Ressourcen. Diesen spezifischen Aufwand zu 
berücksichtigen, ist ein wichtiger Bestandteil der Planung eines Forschungsprojekts und da- 
mit einhergehend der Vorbereitung des Forschungsdatenmanagements. 

Der sogenannte Datenmanagementplan (vgl. CESSDA 2017; Jensen 2011) ist hierbei ein 
wichtiges Werkzeug. Er beinhaltet die systematische Dokumentation des Forschungsdaten- 
managements und beschreibt, welche Maßnahmen von wem wie und warum gesetzt wurden 
bzw. umgesetzt werden müssen und wird so zu einem Instrument, welches das Forschungs- 
datenmanagement auf Projektebene planvoll und nachvollziehbar beschreibt. Forschende 
sollten daher bereits im Rahmen der Projektplanung einen projektspezifischen Datenmanage- 
mentplan erstellen und darin alle geplanten Strategien, Maßnahmen und Aktivitäten im Um- 
gang mit den Forschungsdaten festlegen und im Laufe des Forschungsprojekts systematisch 
als Leitfaden anwenden. 

Zu bedenken ist in diesem Zusammenhang, dass Forschungsprojekte kein statisches Un- 
terfangen sind. Forschungsvorhaben und Forschungsziele können sich im Projektverlauf ver- 
ändern. Damit gehen oftmals Veränderungen in den (zu erstellenden) Forschungsdaten und 
somit konsequenterweise im projektspezifischen Forschungsdatenmanagement einher. Dem- 
entsprechend müssen Maßnahmen und Aktivitäten angepasst und im Datenmanagementplan 
entsprechend dokumentiert werden. Mit anderen Worten: Analog zu Forschungsvorhaben ist 
auch das Forschungsdatenmanagement ein dynamischer Prozess und seine Dokumentation 
im Datenmanagementplan stetigen Anpassungen unterworfen. Als Instrument der Qualitäts- 
sicherung können mit seiner Hilfe die Vorgehensweisen und Arbeitsabläufe im Projekt stetig 
spezifiziert, überprüft und angepasst werden. 
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3. Forschungsdatenmanagement systematisch planen und 
umsetzen 


Sebastian Netscher und Uwe Jensen 


Ein systematisches Forschungsdatenmanagement ist grundlegend fiir die erfolgreiche Um- 
setzung empirischer Forschungsprojekte, d.h. die planvolle Umsetzung eines Forschungsvor- 
habens, und fixer Bestandteil guten wissenschaftlichen Arbeitens. Es bezieht u.a. Fragen der 
Datengenerierung, Dokumentation, Auswertung und längerfristigen Sicherung von For- 
schungsdaten in die Projektplanung ein. Das Forschungsdatenmanagement dient so nicht nur 
der erfolgreichen Umsetzung des eigentlichen Forschungsvorhabens, sondern unterstützt 
auch weiterführende Ziele und Anforderungen im Umgang mit den Daten über das originäre 
Forschungsprojekt hinaus. Dazu zählen die Aufbewahrung, Sicherung und Nachnutzung der 
Daten ebenso wie die Replizierbarkeit der publizierten Ergebnisse. 

Gegenstand dieses Kapitels ist die Beschreibung von Grundzügen des Forschungsdaten- 
managements. Dabei steht vor allem der Umgang mit quantitativen Daten der empirischen 
Sozialforschung im Vordergrund. Ausgehend von drei zentralen Zielen wird die planvolle 
Implementierung des Forschungsdatenmanagements im Projekt und darüber hinaus vertieft. 
Der Abschnitt 3.1 fokussiert als erstes Ziel ein planvolles projektinternes Forschungsdaten- 
management. Hierbei wird der Umgang mit den Forschungsdaten im Projektverlauf mit dem 
Ziel festgelegt, deren Verständlichkeit, Interpretierbarkeit und Nachvollziehbarkeit sicherzu- 
stellen. Dazu werden im Folgenden wesentliche disziplinspezifische Strategien, Prozesse und 
Maßnahmen im Rahmen des Forschungsdatenmanagements kurz erörtert. 

Daran anschließend werden in Abschnitt 3.2 zwei weiterführende Ziele des Forschungs- 
datenmanagements diskutiert. Hierzu unterscheiden wir grob zwischen dem Erhalt der Daten 
zu Replikationszwecken und der Bereitstellung der Daten zur Nachnutzung durch Dritte. Der 
Erhalt der Daten zu Replikationszwecken dient vor allem der Verifizierbarkeit von For- 
schungsergebnissen ebenso wie der Reproduzierbarkeit der dabei verwendeten Daten. Im 
Sinne guter wissenschaftlicher Praxis unterstützt der Datenerhalt damit die Transparenz und 
Überprüfbarkeit des originären Forschungsvorhabens. Die Bereitstellung der Daten zur 
Nachnutzung (Data Sharing) geht darüber hinaus und ermöglicht es Dritten, diese Daten in 
neuen Forschungskontexten und für neue Forschungsfragen nachzunutzen. Die Datenbereit- 
stellung ist damit nicht nur Teil guter wissenschaftlicher Praxis, sondern fördert auch den 
Erkenntnisfortschritt in der Forschung. Data Sharing ermöglicht den effizienten Einsatz von 
Forschungsressourcen in der Forschungsförderung und unterstützt die Ziele eines offenen 
Zugangs zu Forschungsdaten (Open Data). Schließlich steigert die Datenbereitstellung die 
Reputation der Forschenden, indem ihre Daten an Sichtbarkeit gewinnen sowie dauerhaft 
auffindbar und zitierbar sind (ZBW/GESIS/RatSWD 2015; Allianz der deutschen Wissen- 
schaftsorganisationen 2010). 


3.1 Die Planung des projektinternen Forschungsdatenmanagements 


Um Forschungsdatenmanagement im Rahmen eines empirischen Forschungsprojekts gezielt 
betreiben zu können, gilt es zu klären, was, wie, wann, von wem und mit welchem Aufwand 
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im Umgang mit den Forschungsdaten gemacht werden soll bzw. bereits gemacht wurde. Ent- 
sprechende Aktivitäten müssen geplant, entwickelt, untereinander abgestimmt und in den 
gesamten Projektablauf integriert werden. Sie machen den Status und Entstehungskontext 
der Daten in jeder Projektphase transparent und nachvollziehbar und dienen so der Qualität, 
Verständlichkeit und Interpretierbarkeit der Daten. 

Zentrales Werkzeug eines planvollen Forschungsdatenmanagements ist der Datenma- 
nagementplan (vgl. Jensen 2011). In ihm werden alle notwendigen Aktivitäten definiert und 
systematisch dokumentiert. Der Datenmanagementplan beschreibt den (geplanten) Umgang 
mit den Daten im Projektverlauf ebenso wie über das Projektende hinaus. Dabei verfolgt er 
einen doppelten Zweck: Zum einen fungiert der Datenmanagementplan als Leitfaden, der die 
notwendigen Aktivitäten des Forschungsdatenmanagements in konkrete Arbeitsabläufe, 
Aufgaben, Regeln und Verantwortlichkeiten strukturiert. Zum anderen ist er ein Instrument 
der Qualitätssicherung, das die Transparenz im Projekt erhöht und die Grundlagen für den 
längerfristigen Erhalt der Daten über das Projektende hinaus schafft. 

Bei der Umsetzung des Forschungsdatenmanagements sollten Forschende immer ihre ei- 
gentlichen Ziele im Umgang mit den Daten im Auge behalten. So muss das projektinterne 
Forschungsdatenmanagement den Umgang mit den Daten im Forschungsprojekt regeln. Se- 
parat zu betrachten sind Pläne zum Umgang mit den Daten nach Projektende, wie etwa der 
längerfristige Datenerhalt zu Replikationszwecken oder die Bereitstellung der Daten zur 
Nachnutzung, wie in Abschnitt 3.2 näher erläutert. Im vorliegenden Abschnitt konzentrieren 
wir uns zunächst auf die Planung des projektinternen Forschungsdatenmanagements und die 
dabei zu berücksichtigenden Aktivitäten. Um die Qualität und Nutzbarkeit der Daten im For- 
schungsprojekt sicherzustellen, müssen diese adäquat aufbereitet und dokumentiert sein, 
rechtliche Aspekte, z.B. in Bezug auf den Datenschutz oder das Urheberrecht, berücksichtigt 
und die Daten systematisch organisiert werden. Aufbauend auf dem projektinternen For- 
schungsdatenmanagement können dann weiterführende Ziele im Umgang mit den Daten de- 
finiert und implementiert werden. 


3.1.1 Datenaufbereitung und Datendokumentation 


Je nach zugrunde liegender Forschungsfrage müssen Forschende zunächst definieren, welche 
Daten zur Realisierung des Forschungsvorhabens notwendig sind. Das bedeutet, dass die 
Forschenden zuallererst klären müssen, welche Informationen, über wen oder was, in wel- 
cher Form und wie erhoben werden sollen. Derartige Maßnahmen zur Erstellung des Frage- 
programms, zur Definition der Grundgesamtheit, zur Stichprobenziehung, zur Methode der 
Datenerhebung etc. sind spezifisch für das jeweilige Forschungsprojekt festzulegen. In der 
Regel sind sie Teil der eigentlichen Projektplanung und weniger des projektinternen For- 
schungsdatenmanagements. Für die vorausschauende Planung des Forschungsdatenmanage- 
ments ist die detaillierte Kenntnis u.a. des Frageprogramms oder der Untersuchungspopula- 
tion aber unerlässlich. Sie ist die Grundlage zur systematischen Vorbereitung aller Aktivitä- 
ten des Forschungsdatenmanagements. 

Zur Gewährleistung ihrer Qualität und Nutzbarkeit im Projektverlauf müssen die einmal 
erhobenen Daten aufbereitet, validiert und dokumentiert werden. Um einen reibungslosen 
Umgang mit den Daten im Projekt sicherzustellen, gilt es daher bereits in der Planung der 
Datenerhebung Konzepte zur Aufbereitung und Dokumentation zu entwickeln. Ein Konzept 
zur Aufbereitung sollte von den erhobenen Rohdaten ausgehen. Je nach Art und Umfang 
müssen diese zunächst strukturiert und in ein für die Datenanalyse geeignetes Format ge- 
bracht werden. Dies betrifft sowohl den Aufbau des Datensatzes als auch die dazu verwen- 
dete Software und die genutzten Dateiformate. Bei der Planung des Datensatzaufbaus gilt es 
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festzulegen, wie die Variablen strukturiert werden. Dies betrifft neben deren thematischen 
Gliederung, etwa nach administrativen und inhaltlichen Variablen, auch die Sicherstellung 
ihres Bezugs zum originären Frageprogramm, inklusive darin enthaltener Filter, Verzwei- 
gungen oder Variablenabfolgen. In Bezug auf die zu verwendenden Dateiformate empfiehlt 
sich generell die Verwendung quelloffener Formate, wie z.B. das grundlegende ASCI/-For- 
mat bzw. die Nutzung nicht-proprietärer Software, wie z.B. das Statistikprogramm AR. In je- 
dem Fall muss gerade in Forschungskooperationen sichergestellt werden, dass alle Projekt- 
beteiligten jederzeit Zugang zu den Daten haben und mit diesen arbeiten können. 

Nach der Definition der Datensatzstruktur sind alle darin enthaltenen Variablen eindeutig 
zu definieren. Dazu gehört, dass ihr Bezug zum originären Frageprogramm sichergestellt, die 
Variable eindeutig benannt und ihre Bedeutung durch ein aussagekräftiges Label beschrieben 
(labeln) wird. Analog müssen alle in den Variablen enthaltenen Werte (Kodes) gemäß den 
Antwortvorgaben des Frageprogramms definiert und ihre Bedeutung beschrieben werden. 
Gleichfalls müssen offene Nennungen in einzelnen Fragen konsistent strukturiert und kodiert 
werden. Dies gilt auch für den Umgang mit fehlenden Werten. Hierbei gilt es zunächst zu 
klären, ob die unterschiedlichen Gründe für fehlende Angaben, wie etwa weiß nicht oder 
sage ich nicht, für das Forschungsvorhaben relevant sind. Dementsprechend müssen diese 
detailliert erhoben und kodiert werden oder können pauschal erfasst werden. Schließlich 
müssen abgeleitete und konstruierte Variablen, wie Gewichte, Skalen und Indizes, definiert, 
gelabelt und in die bestehende Datensatzstruktur integriert werden (Jensen 2012: 23f.). 

Daneben müssen im Rahmen des Aufbereitungskonzepts Validierungsmaßnahmen ent- 
wickelt und implementiert werden. Die frühzeitige Planung entsprechender Kontrollmaßnah- 
men dient sowohl ihrer konsistenten Umsetzung, und damit der Datenqualität, als auch der 
Datenerhebung, etwa durch die erneute Kontrolle der geplanten Filterführung im Fragepro- 
gramm. Die zu entwickelnden Validierungsmaßnahmen umfassen dabei u.a. die Überprüfung 
der Repräsentativität der Daten ebenso wie Maßnahmen zur Kontrolle aller Variablen bzw. 
Variablengruppen, z.B. in Bezug auf die Filterführung oder auf etwaige Verzerrungen und 
Ausreißer, Häufungen fehlender Antworten, systematisches oder inkonsistentes Antwortver- 
halten. Die Planung und Umsetzung entsprechender Prozesse und Arbeitsschritte wird in Ka- 
pitel 6 Schritt für Schritt behandelt. 

Parallel zur Planung der Datenaufbereitung gilt es die Daten zu dokumentieren. Ein ent- 
sprechendes Konzept zur Datendokumentation muss gewährleisten, dass alle relevanten 
Schritte der Datenerhebung und Aufbereitung ebenso wie die Forschungsdaten selbst ausrei- 
chend beschrieben sind. Die Dokumentation dient der Qualitätssicherung und ermöglicht es, 
den Zustand der Daten in unterschiedlichen Projektphasen nachzuvollziehen und reversibel 
zu kontrollieren. Sie stellt somit die Transparenz der Daten, deren Verständlichkeit und In- 
terpretierbarkeit im Rahmen des Forschungsprojekts sicher. 

Das Dokumentationskonzept muss Antworten auf zwei zentrale Fragen liefern. Erstens: 
Was muss dokumentiert werden? D.h., welche Informationen zu den Daten und ihrem Ent- 
stehungsprozess müssen erhalten bleiben, um deren Transparenz und Verständlichkeit zu ge- 
währleisten? Zweitens: Wie soll dokumentiert werden? D.h., welche Standards und Best- 
Practice-Empfehlungen lassen sich hierfür nutzen (zur Einführung vgl. z B. Corti et al. 2014; 
Jensen/Katsanidou/Zenk-Möltgen 2011)? In Bezug auf die erste Frage nach dem Inhalt der 
Dokumentation empfiehlt sich die Unterscheidung von Informationen auf der Studien- und 
der Variablenebene. Auf Studienebene müssen der übergreifende Kontext der Datenerhe- 
bung und deren methodische Grundlagen beschrieben werden, etwa in Form eines Metho- 
denberichts (Watteler 2010). Dieser sollte auch Informationen über rechtliche Aspekte, wie 
zum Datenschutz oder zum Urheberrecht (s.u.), beinhalten und das Aufbereitungskonzept 
beschreiben. Auf Variablenebene sind Fragen und Antwortvorgaben des originären Frage- 
programms zu dokumentieren. 
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Neben der Frage nach den Inhalten der Dokumentation muss das Konzept auch die Struk- 
tur der dargebotenen Informationen thematisieren. Es gilt zu klären, welche Metadaten und 
Metadatenstandards zur Datendokumentation genutzt werden und auf welches kontrollierte 
Vokabular dabei zurückgegriffen wird. Vereinfacht ausgedrückt sind Metadaten nichts an- 
deres als Informationen über die Daten, die diese beschreiben und so deren Transparenz, 
Verständlichkeit und Interpretierbarkeit sicherstellen. Wallace (2001: 262) unterscheidet 
dabei zwischen ,,structured or semi-structured information which enables the creation, man- 
agement, and use of records through time and within and across domains“. 


Schaukasten 3.1: Datenaufbereitung und Datendokumentation 
Datensatzstruktur: 


« Ist der Datensatz sinnvoll strukturiert und spiegelt den Aufbau des Frageprogramms wider? 
« Sind alle Filter, Verzweigungen, Variablen analog zum Frageprogramm spezifiziert? 


Variablen, Werte und Labels: 


Sind alle Variablen strukturiert sowie einheitlich definiert, benannt und gelabelt? 

Sind alle Werte der Variablen gelabelt und den Antwortvorgaben des Frageprogramms zuordenbar? 
Sind alle offenen Antwortmöglichkeiten und fehlende Werte konsistent kodiert und gelabelt? 

Sind abgeleitete Variablen inhaltlich definiert, gelabelt und in die Datensatzstruktur integriert? 


Qualitätssicherung: 
+ Welche Validierungs- und Qualtätssicherungsmaßnahmen sind geplant? 
Dokumentation und Metadaten: 


In welcher Form werden die Daten dokumentiert? 

Wie werden Veränderungen der Ursprungsdaten, z.B. durch die Datenaufbereitung, dokumentiert? 
Wie werden abgeleitete Variablen, Skalen, Indizes, Gewichte etc. dokumentiert? 

Welche Metdatenstandards werden genutzt? 

Wird ein kontrolliertes Vokabular zur Datendokumentation genutzt? 

Werden Länder, Berufe, Bildung etc. mittels Standardklassifikationen dokumentiert? 


Quelle: Eigene Darstellung 


Semi-strukturierte Metadaten beziehen sich auf alle Formen zusammenhängender textbasier- 
ter Dokumente, wie Methodenberichte, originäre Fragebögen oder Codebücher. Derartige 
Dokumente enthalten alle notwendigen Informationen, um die Transparenz und Verständ- 
lichkeit der Daten zu gewährleisten, die in Aufbau und Struktur keinen (internationalen) 
Standards oder Konventionen folgen. Strukturierte bzw. standardisierte Metadaten dienen 
u.a. der methodischen Beschreibung einzelner Variablen bzw. Messkonzepte, z.B. die Inter- 
national Standard Classification of Education (ISCED 2011), oder der adäquaten Zitation 
von Daten, wie am Beispiel von DataCite (2016) in Kapitel 10 erörtert. Die Standards der 
Data Documentation Initiative (DDI 2017) ermöglichen es darüber hinaus, sozialwissen- 
schaftliche Daten systematisch auf Studien- und Variablenebene zu dokumentieren (vgl. Ka- 
pitel 9). Die Verwendung standardisierter Metadaten zur Datendokumentation ist zwar etwas 
zeitaufwendiger als die Beschreibung der Daten mit semi-strukturierten Metadaten. Dieser 
höhere Aufwand zahlt sich jedoch bereits in der Datenanalyse aus. Eine vollständige Doku- 
mentation anhand standardisierter Metadaten steigert die Transparenz der Daten, erhöht ihre 
Verständlichkeit und erleichtert die Interpretation von Forschungsergebnissen über einen 
längerfristigen Zeitraum hinweg. Schaukasten 3.1 fasst relevante Leitfragen zur Planung der 
Aufbereitung und Dokumentation von Forschungsdaten zusammen. 


3. Forschungsdatenmanagement systematisch planen und umsetzen 41 


3.1.2 Datenschutzkonzept 


Zumeist beinhalten sozialwissenschaftliche Daten Informationen zu natürlichen Personen, 
menschlichem Verhalten oder Einstellungen. Dementsprechend sind der „Schutz der Unter- 
suchungsperson sowie der Schutz vor einer missbräuchlichen Verwendung ihrer personen- 
bezogenen Informationen [...] Kernaspekte des verantwortlichen Forschens im sozialwis- 
senschaftlichen Umfeld“ (Jensen 2012: 13). Mit anderen Worten liegt es in der Verantwor- 
tung der Forschenden, geeignete Maßnahmen zu planen und wirksam umzusetzen, um Un- 
tersuchungspersonen vor möglichen negativen Konsequenzen ihrer Teilnahme am Fragepro- 
gramm zu schützen. Dabei handelt es sich nicht nur um eine forschungsethische Verantwor- 
tung. Vielmehr schreiben die Regelungen der EU-Datenschutz-Grundverordnung (DSGVO) 
entsprechende Maßnahmen im Umgang mit sogenannten personenbezogenen Informationen 
vor. Derartige Informationen umfassen zum einen alle Angaben, die zur direkten oder indi- 
rekten Identifikation von natürlichen Personen geeignet sind, wie z.B. deren Klarnamen. 
Zum anderen geht es aber auch um sogenannte besondere Kategorien personenbezogener 
Daten, d.h. Angaben etwa zur ethnischen Herkunft, zu religiösen Überzeugungen oder zu 
sexuellen Orientierungen (Art. 9 DSGVO). 

Sollen in einem Forschungsprojekt personenbezogene Informationen gemäß Art. 4 
DSGVO erhoben, gespeichert oder verarbeitet werden, müssen Forschende bereits zu Beginn 
des Forschungsprojekts ein umfassendes Datenschutzkonzept entwickeln. Dieses muss zu- 
nächst etwaige Risiken für die Untersuchungspersonen bei Bekanntwerden entsprechender 
Informationen ebenso wie deren Eintrittswahrscheinlichkeit abschätzen (Art. 25 DSGVO). 
Um derartige Risiken zu minimieren bzw. ihr Eintreten auszuschließen, ist es notwendig, im 
Forschungsprojekt entsprechende Vorkehrungen zum Schutz der Untersuchungspersonen 
und ihrer Identität zu planen und umzusetzen. Hierzu zählen u.a. die sogenannte informierte 
Einwilligungserklärung, die Pseudonymisierung bzw. Anonymisierung der Daten ebenso 
wie das geschützte Speichern von sensiblen Informationen oder deren letztendliche Vernich- 
tung. 

Das Datenschutzkonzept muss somit zunächst sicherstellen, dass die informierten Ein- 
willigungen aller Untersuchungspersonen vorliegen und dass diese ihre Rechte im Rahmen 
der Erhebung, Speicherung und Verarbeitung der personenbezogenen Informationen geltend 
machen können. Analog erhalten die Forschenden durch die Einwilligungserklärung die 
rechtliche Möglichkeit, personenbezogene Informationen im Rahmen ihres Forschungspro- 
jekts überhaupt nutzen zu dürfen. 

Darüber hinaus sind im Rahmen der Speicherung und Verarbeitung personenbezogener 
Informationen zwei primäre datenschutzrechtliche Maßnahmen zu berücksichtigen. Erstens 
sollten personenbezogene Daten in der Forschung technisch und organisatorisch so bearbei- 
tet werden, dass die Rechte der Untersuchungspersonen geschützt sind. Hierzu können die 
Daten pseudonymisiert oder anonymisiert werden. Ein frühzeitiges Auseinandersetzen mit 
entsprechenden Maßnahmen ist aus unterschiedlichen Gründen relevant. Zunächst sind es 
die konkret erhobenen Informationen und die Art der Daten, die die Anonymisierungsstrate- 
gie leiten. Eine frühzeitige Planung hilft, Datenschutzprobleme zu erkennen und bereits in 
der Phase der Datenerhebung Risiken für die Untersuchungspersonen zu minimieren. So wird 
zudem sichergestellt, dass Anonymisierungsmaßnahmen bei der Datenaufbereitung konsis- 
tent umgesetzt und dokumentiert werden können. 

Zweitens müssen personenbezogene Informationen geschützt vor dem unautorisierten 
Zugriff Dritter gespeichert und innerhalb des Forschungsprojekts entsprechend kommuni- 
ziert werden (Art. 25 DSGVO). Im Datenschutzkonzept ist zu klären, wer wie Zugang zu 
welchen Daten hat und welche technischen Schutzmaßnahmen, wie z.B. die Verwendung 
von Passwörtern, die Nutzung geschützter Serverbereiche oder die Verschlüsselung der 
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Daten, zu ergreifen sind (zum Thema Anonymisierung und Risikomanagement vgl. die aus- 
führliche Darstellung von Elliot et al. 2016: 1f.). Letztendlich ist auch die Vernichtung nicht 
mehr benötigter Informationen Teil des Datenschutzkonzepts. Im Laufe des Forschungspro- 
jektes werden verschiedene schützenswerte Daten und deren Back-ups obsolet, z.B. die Kon- 
taktinformationen der Untersuchungspersonen, oder müssen aufgrund rechtlicher Vorgaben 
oder Auflagen Dritter, z.B. von Behörden, vernichtet werden. Auch diese Vernichtung muss 
im Rahmen des Datenschutzkonzepts genau geplant werden, sodass beispielsweise etwaige 
Löschfristen im Projektverlauf gewährleistet sind. 


Schaukasten 3.2: Datenschutzkonzept 
Risikoabschätzung: 


e Welche Risiken bergen die Daten bei Bekanntwerden für die Untersuchungspersonen? 
«- Mit welcher (Eintritts-)Wahrscheinlichkeit werden die Daten bekannt? 


Einwilligung der Untersuchungspersonen: 


° Liegen die informierten Einwilligungen vor, sodass personenbezogene Daten erhoben, gespeichert 
und verarbeitet werden können? 
+ Wie werden das Einholen der Einwilligung und die Wahrnehmung von Rechten organisiert? 


Anonymisierung: 


« Welche Datenschutzmaßnahmen sind vorgesehen? 
+ Welche Maßnahmen zum Schutz schwach- bzw. nicht-anonymisierter Daten sind vorgesehen? 


geschütztes Speichern: 


+ Bestehen geschützte Serverbereiche und wie werden ggf. die Zugriffsrechte organisiert? 
« Bestehen Konventionen zum Passwortschutz und zum Verschlüsseln bestimmter Daten und Da- 
teien? 


Vernichtung: 


« Besteht ein Konzept zur Vernichtung obsoleter Daten und Dateien? 
+ Wie werden ggf. Löschungsfristen für einzelne Daten oder Dateien im Projektverlauf gewährleistet? 


Quelle: Eigene Darstellung 


Schaukasten 3.2 listet zentrale Leitfragen zur projektinternen Planung des Datenschutzkon- 
zepts. Kapitel 4 erörtert darüber hinaus ausführlich Themen und Anforderungen der DSGVO 
zum Umgang mit personenbezogenen Daten in Forschungsprojekten. Dabei stehen Aspekte 
der Datenanonymisierung ebenso wie Vorgaben zur informierten Einwilligungserklärung im 
Fokus. 


3.1.3 Verwaltung von Urheberrechten 


Neben datenschutzrechtlichen Aspekten spielen in der Planung des Forschungsdatenmana- 
gements Urheberrechte eine zentrale Rolle. Sie sichern die rechtskonforme Verwendung ur- 
heberrechtlich geschützter Materialien im Forschungsprojekt. Dementsprechend muss bei 
der Planung des projektinternen Forschungsdatenmanagements auch ein Konzept zur Orga- 
nisation und Verwaltung von Urheberrechten entwickelt werden. Dies betrifft zum einen die 
im Forschungsprojekt generierten Materialien, wie z.B. Forschungsergebnisse oder Daten. 
Die Urheber- und Verwertungsrechte an derartigen Materialien sollten frühzeitig, d.h. bereits 
zu Projektbeginn, schriftlich unter den Projektbeteiligten geregelt werden. Nur so kann eine 
rechtskonforme Verwendung der Daten im Projekt gewährleistet und sichergestellt werden, 
dass die Verwertungsrechte an Forschungsergebnissen und den damit verbundenen 
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Publikationen geklärt sind. Sollen generierte Materialien, wie Daten und deren Dokumenta- 
tionen, nach Projektende auch zur Nachnutzung bereitgestellt werden, empfiehlt es sich, Nut- 
zungsrechte durch eine Lizenz zu regeln. 


Schaukasten 3.3: Verwaltung von Urheberrechten 
Urheberrechte an im Forschungsprojekt generierten Daten und Dateien: 


Wer hat Urheberrechte an im Forschungsprojekt generierten Daten und Dateien? 
Wie werden die Verwertungsrechte an den Daten und Dateien geregelt? 


Urheber- und Verwertungsrechte Dritter: 


Bestehen Urheberrechte Dritter an im Forschungsprojekt verwendeten Materialien? 
Wie erlangt das Forschungsprojekt die Rechte zur Nutzung dieser Materialien im Projekt? 


Quelle: Eigene Darstellung 


Zum anderen geht es um Urheberrechte Dritter, etwa an Methoden und Standards, wie z.B. 
Skalen, die im Rahmen der Datenerhebung und Aufbereitung genutzt werden sollen. Werden 
derartige urheberrechtlich geschützte Materialien eingesetzt, so ist zu klären, welche Nut- 
zung die entsprechenden Verwertungsrechte erlauben. Ein Mangel an entsprechenden Rech- 
ten zur Nachnutzung kann sich negativ auf die Möglichkeiten der Datenanalyse oder deren 
Verwertung im Rahmen wissenschaftlicher Publikationen auswirken. Gerade deshalb ist es 
zentral, bereits während der Projektplanung und vor der eigentlichen Datenerhebung entspre- 
chende Urheber- und Verwertungsrechte adäquat zu verwalten und zu dokumentieren. In 
Schaukasten 3.3 sind Leitfragen zur Verwaltung von Urheberrechten für die Projektplanun- 
gen zusammengestellt. 


3.1.4 Organisation der Forschungsdateien 


Zur Planung des projektinternen Forschungsdatenmanagements gehört auch die logische und 
technische Organisation der Daten und Dateien im Forschungsprojekt. Die Entwicklung und 
konsistente Umsetzung eines entsprechenden Organisationkonzepts ist gerade in For- 
schungskooperationen unerlässlich. Sie dient primär der Arbeitserleichterung und der Siche- 
rung der Arbeit als solche. Eine gute Organisation ermöglicht es allen Projektbeteiligten, 
Daten und Dateien schnell zu identifizieren, zu bearbeiten und zu sichern. 

Ein entsprechendes Organisationkonzept sollte zunächst eine Ordnerstruktur für das For- 
schungsprojekt festlegen. Dies kann beispielsweise anhand unterschiedlicher Daten- und Da- 
teitypen oder anhand verschiedener Themenkomplexe geschehen. Hierbei ist der Umgang 
mit personenbezogenen Informationen und datenschutzrechtlich relevanten Daten und Da- 
teien zu berücksichtigen. Zudem sind etwaige Regelungen und Maßnahmen des projektin- 
ternen Datenschutzkonzepts im Auge zu behalten. 

Analog muss das Konzept klären, wie Daten und Dateien im Forschungsprojekt benannt 
und versioniert werden. So können Dateinamen eine Reihe von Informationen, wie etwa den 
Dateityp, die Zugehörigkeit zu anderen Dateien, die erstellende bzw. bearbeitende Person 
oder die Version der Datei enthalten. Denkbar ist es auch, datenschutzrechtlich relevante 
Dateien durch eine spezielle Kennzeichnung im Dateinamen zu markieren. Analog ist bei der 
Entwicklung von Versionierungsregeln darauf zu achten, dass Beziehungen zwischen unter- 
schiedlichen Versionen zusammengehöriger Dateien ersichtlich bleiben, um beispielsweise 
einer bestimmten Version des Datensatzes eine bestimmte Version des Codebuchs dauerhaft 
zuordnen zu können. 
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SchlieBlich muss im Rahmen des Organisationskonzepts sichergestellt werden, dass die 
Daten durch eine geeignete Back-up-Strategie ausreichend vor versehentlichem Verlust ge- 
schützt sind. Sie legt fest, welche Dateien wo, wie oft, von wem gesichert werden und wie 
der Erhalt sowie die Lesbarkeit der Sicherungskopien gewährleistet werden. In der Praxis 
besitzen heute die meisten Forschungseinrichtungen institutseigene Back-up-Strategien, ba- 
sierend auf automatisierten Sicherungsprozessen. Entsprechend ist zu klären, ob am jeweili- 
gen Institut derartige automatisierte Prozesse existieren und wie sie funktionieren. Dabei 
müssen Maßnahmen des Datenschutzkonzepts auch in Bezug auf die Sicherungskopien um- 
gesetzt werden. Diese sind ggf. zu verschlüsseln, mit einem Passwort zu schützen und vor 
dem unautorisierten Zugriff Dritter zu sichern. Die Leitfragen in Schaukasten 3.4 dienen der 
Orientierung bei der Projektplanung. Kapitel 5 erörtert darüber hinaus ausführlich Strategien 
und Maßnahmen zum systematischen und rechtkonformen Umgang mit Forschungsdateien 
in Projekten. 


Schaukasten 3.4: Organisation der Forschungsdateien 
Ordnerstruktur: 


Wie werden die Daten und Dateien im Rahmen der Ordnerstruktur organisiert? 
Wie werden die Zugriffsrechte der Projektbeteiligten organisiert? 


Datenbenennung und -versionierung: 


Bestehen Regeln zur eindeutigen Benennung von Daten und zugehörigen Dateien? 
Bestehen Regeln zur eindeutigen Versionierung von Daten und zugehörigen Dateien? 


Sicherung gegen Verlust (Back-ups): 


Wie werden die Daten und Dateien technisch gegen Verlust gesichert (Back-ups)? 
Bestehen in der jeweiligen Forschungseinrichtung automatisierte Back-up-Prozesse? 
Wie werden Datenschutzmaßnahmen im Kontext der Back-ups berücksichtigt? 


Quelle: Eigene Darstellung 


3.1.5 Ressourcen und Verantwortlichkeiten 


Die Planung und Umsetzung des projektinternen Forschungsdatenmanagements erfordert 
letztendlich die vorausschauende Berücksichtigung notwendiger Ressourcen und Verant- 
wortlichkeiten. Gerade in Forschungskooperationen sollten Verantwortlichkeiten für die un- 
terschiedlichen Aktivitäten des Forschungsdatenmanagements von Beginn an klar definiert 
und zwischen den Kooperationspartnern schriftlich vereinbart werden. Generell empfiehlt es 
sich, die Aktivitäten des Forschungsdatenmanagements als festen Bestandteil der Projektor- 
ganisation zu betrachten und dort zu verorten, wo die jeweilige Tätigkeit auch tatsächlich 
ausgeführt werden soll. So lässt sich beispielsweise die Dokumentation des Frageprogramms 
an die Entwicklung des Forschungsdesigns knüpfen. Entsprechend sind jene Projektbeteilig- 
ten, die für die Entwicklung des Frageprogramms verantwortlich sind, auch für dessen adä- 
quate Dokumentation zuständig. 

Bei der Ressourcenplanung bzw. der Ausarbeitung eines Budgetplans ist zu berücksich- 
tigen, dass auch das Forschungsdatenmanagement selbst Kosten verursacht. Diese sind pau- 
schal nur schwer definierbar. Sie hängen primär von der konkreten wissenschaftlichen und 
organisatorischen Gestaltung des Forschungsprojektes und den zu generierenden Daten ab. 
Bei der Kostenkalkulation sollten Forschende daher zunächst ihr Forschungsvorhaben hin- 
sichtlich aller Kostenaspekte reflektieren. Darauf aufbauend können die unterschiedlichen 
Aktivitäten des projektinternen Forschungsdatenmanagements definiert und budgetiert 
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werden. Zur ersten Orientierung lassen sich die dabei entstehenden Kosten in Sach- und Per- 
sonalmitteln differenzieren. Unter Personalmitteln sind sämtliche personelle Aufwendungen 
zu subsummieren, z.B. fiir die Koordination des Forschungsdatenmanagements oder fiir die 
relativ zeitaufwendige Aufbereitung und Dokumentation der Daten. Sachmittel beinhalten 
u.a. Kosten für Softwarelizenzen oder für ausreichende Speicherkapazitäten etc. (Jensen 
2012:16f.). Wesentliche Fragestellungen bei der Planung von Verantwortlichkeit und Res- 
sourcen im Rahmen des Forschungsdatenmanagements zeigt Schaukasten 3.5. 


Schaukasten 3.5: Ressourcen und Verantwortlichkeiten 
Verantwortlichkeiten: 


Welche Aufgaben und Anforderungen sind im Forschungsdatenmanagement zu berücksichtigen? 
Wie werden die entsprechenden Verantwortlichkeiten festgelegt und wo werden diese verortet? 
Sind besondere Anforderungen, z.B. im Rahmen von Forschungskooperationen, zu berücksichti- 
gen? 


Ressourcen: 


Wie beeinflussen das Forschungsprojekt und die zu generierenden Daten die Kosten des For- 
schungsdatenmanagements? 

Welche Personalkosten fallen im Rahmen des Forschungsdatenmanagements an? 

Welche Sachkosten fallen im Rahmen des Forschungsdatenmanagements an? 


Quelle: Eigene Darstellung 


3.2 Forschungsdatenmanagement über das Projektende hinaus planen 


Die systematische Planung des projektinternen Forschungsdatenmanagements dient der Si- 
cherung der guten wissenschaftlichen Praxis im Projektverlauf. Sie unterstützt die Umset- 
zung der eigentlichen Forschungsziele und sichert die Qualität, Verständlichkeit und Inter- 
pretierbarkeit der zu verwendenden Daten. Ebenso wird durch die systematische Planung der 
datenschutz- und urheberrechtskonforme Umgang anhand geeigneter Konzepte gewährleis- 
tet. Ein vorausschauend geplantes, projektinternes Forschungsdatenmanagement schafft aber 
auch die notwendigen Grundlagen, um die Daten über das eigentliche Forschungsprojekt 
hinaus zu erhalten: 


Good research data management is not a goal in itself, but rather the key conduit leading to knowledge 
discovery and innovation, and to subsequent data and knowledge integration and reuse. (Horizon 2020 
Programme 2016: 3) 


Im Rahmen der Projektplanung muss daher nicht nur das projektinterne Forschungsdatenma- 
nagement berücksichtigt werden, sondern es bedarf auch der Entwicklung geeigneter Kon- 
zepte zur langfristigen Sicherung der Daten nach Projektende. Forschende sollten dabei Ak- 
tivitäten des projektinternen Forschungsdatenmanagements von den weiterführenden Maß- 
nahmen zur Sicherung der Daten über das Projekt hinaus abgrenzen. Dies erleichtert die Pla- 
nung, dient vor allem aber einer gezielten Umsetzung weiterführender Maßnahmen. Schließ- 
lich müssen derartige weiterführende Aktivitäten im Projektverlauf implementiert und um- 
gesetzt werden, auch wenn ihre Maßnahmen weiter über das Projekt hinausreichen. Letzt- 
endlich unterstützt die Unterscheidung auch die Erfüllung etwaiger Auflagen und Anforde- 
rungen Dritter, wie z.B. von akademischen Journals oder Drittmittelgebern. Dabei lassen sich 
primär zwei Auflagen Dritter erkennen, denen zwei unterschiedliche wissenschaftliche 
Nachnutzungszwecke zugrunde liegen: a) die Replikation publizierter Forschungsergebnisse 
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zur Verifizierung und b) die Bereitstellung der Daten zur Nachnutzung durch Dritte in neuen 
Forschungskontexten (Data Sharing). 


3.2.1 Die Replizierbarkeit von Forschungsergebnissen sicherstellen 


Ein Grundsatz guter wissenschaftlicher Praxis ist die Transparenz und Uberpriifbarkeit von 
publizierten Forschungsergebnissen ebenso wie von verwendeten Daten. So fordert die Deut- 
sche Forschungsgemeinschaft in ihren Leitlinien zum Umgang mit Forschungsdaten, dass 
diese „in der eigenen Einrichtung oder in einer fachlich einschlägigen, überregionalen Infra- 
struktur für mindestens 10 Jahre archiviert werden“ (DFG 2015: 1) sollen, um u.a. die Repli- 
zierbarkeit zu gewährleisten (vgl. dazu auch Huschka/Oellers 2013; Allianz der deutschen 
Wissenschaftsorganisationen 2010). Unter Replikation wird dabei zum einen die Prüfung 
und Verifikation von Analyseergebnissen verstanden, indem diese mit den vorhandenen Da- 
ten unter Nutzung der gleichen Methoden reproduziert werden. Zum anderen meint Replika- 
tion den Versuch, Ergebnisse einer wissenschaftlichen Studie durch Erhebung neuer Daten 
mit gleichen Analysemethoden zu verifizieren (Freese 2007: 178). Analog fordern heute 
mehr und mehr Hochschulen und Forschungseinrichtungen bzw. -verbünde, z.B. die Leibniz- 
Gemeinschaft (2015) oder die Max-Planck-Gesellschaft (2000), aber auch akademische Jour- 
nals, etwa die Politische Vierteljahreszeitschrift (2011), die Replizierbarkeit publizierter For- 
schungsergebnisse. 

Die Planung weiterführender Aktivitäten des Forschungsdatenmanagements muss daher 
auch die Entwicklung eines Konzepts zum längerfristigen Datenerhalt berücksichtigen. For- 
schende sollten dazu zunächst ihr Forschungsprojekt und die potentiell zu replizierenden Da- 
ten reflektieren. Darauf aufbauend gilt es zu klären, welche Anforderungen und Standards 
zur Replikation zu berücksichtigen sind. So schreibt etwa King (1995: 444): 


The replication standard holds that sufficient information exists with which to understand, evaluate, and 
build upon a prior work ifa third party could replicate the results without any additional information from 
the author. 


Wann derartige hinreichende Informationen gegeben sind, sodass die Daten für Dritte zu- 
gänglich, transparent, verständlich und interpretierbar bleiben, beschreiben mittlerweile ver- 
einzelte Leitlinien von Datenrepositorien, u.a. von Dataverse (0.J.). Entsprechende disziplin- 
spezifische Leitlinien von Journalen, etwa im Bereich der Politik- oder der Wirtschaftswis- 
senschaften, diskutieren beispielsweise Gherghina und Katsanidou (2013) oder Vlaeminck 
und Siegert (2012). 

Um die Nachvollziehbarkeit der durchgeführten Datenanalysen und ihrer Ergebnisse 
praktisch zu ermöglich, müssen neben den verwendeten Daten alle zur Replikation notwen- 
digen Skripte, beispielsweise zur Datenaufbereitung und -analyse, in verständlicher und 
nachvollziehbarer Form erhalten werden. Weitergehende Strategien zur Sicherung von Auf- 
bereitungsskripten beschreibt der dritte Abschnitt in Kapitel 8. Im Folgenden stehen gene- 
relle Aspekte zum Erhalt von Forschungsdaten zu Replikationszwecken im Vordergrund. 

In der Planung des Forschungsdatenmanagements erfordert z.B. der zehnjährige Erhalt 
der Daten, dass Konzepte und Maßnahmen während der Projektlaufzeit und nach Projektende 
wirksam ineinandergreifen. Einzelne Aktivitäten des projektinternen Forschungsdatenmana- 
gements müssen dazu an das Ziel des längerfristigen Datenerhalts angepasst werden. Dies 
betrifft insbesondere die Aufbereitung und Dokumentation der Daten. Um über die nächsten 
zehn Jahre transparent und nachvollziehbar zu bleiben, müssen die Daten ebenso wie ge- 
nutzte Methoden und Konzepte hinreichend dokumentiert sein. Dabei sollten soweit als 
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möglich Metadatenstandards verwendet werden, um die Verständlichkeit der Dokumentation 
dauerhaft zu erhöhen. 

Darüber hinaus ist der zehnjährige Erhalt der Daten ggf. aber auch an rechtliche Voraus- 
setzungen gebunden. Hierzu zählen einerseits Vorgaben des Datenschutzes. So darf bei- 
spielsweise die informierte Einwilligung der Untersuchungspersonen den längerfristigen Da- 
tenerhalt nicht ausschließen. Sollen personenbezogene Informationen über zehn Jahre hin- 
weg erhalten bleiben, so muss auch deren Vertraulichkeit gewährleistet werden. Entspre- 
chend sind Maßnahmen zu ergreifen, die den Schutz der Daten für diesen Zeitraum sicher- 
stellen. Analog gilt es, die Urheberrechte an allen zu erhaltenden Daten und Begleitmateria- 
lien im Auge zu behalten und sicherzustellen, dass entsprechende Verwertungsrechte beste- 
hen. Dies betrifft sowohl die Urheberrechte an den im Forschungsprojekts generierten Daten 
und Dateien als auch eventuelle Urheberrechte Dritter, etwa an verwendeten und daher zu 
erhaltenden Materialien. 

Schließlich gilt es zu klären, in welchen Dateiformaten die Daten und Begleitmaterialien, 
wie z.B. die Datendokumentation, gespeichert werden sollen. Zu bedenken ist in diesem Zu- 
sammenhang, dass die Forschenden die Zugänglichkeit zu den Daten und Dateien längerfris- 
tig sicherstellen müssen. Die zur Speicherung verwendeten Formate sollten demnach so ge- 
wählt werden, dass die einzelnen Dateien nutzbar bleiben. Analog zum projektinternen For- 
schungsdatenmanagement empfiehlt sich daher auch beim längerfristigen Datenerhalt die 
Verwendung nicht-proprietärer Formate, deren Quellcodes ggf. Teil der zu erhaltenden Be- 
gleitmaterialien sein können. 

Der eigentliche physische Datenerhalt kann dann durch das Forschungsprojekt selbst or- 
ganisiert und umgesetzt werden. Eine (mindestens) zehnjährige Sicherung von Forschungs- 
daten zu Replikationszwecken setzt jedoch voraus, dass im Rahmen des Forschungsprojektes 
eine entsprechende Strategie entwickelt wird. Diese umfasst zunächst die Definition von Ver- 
antwortlichkeiten für den Erhalt. Daran anschließend muss festgelegt werden, welche Daten 
und Dateien erhalten und in welchen Formaten diese gespeichert werden sollen. Dies betrifft 
neben der Klärung der Bitstream-Sicherung, d.h. den „physische[n] Erhalt des gespeicherten 
Datenobjekts (Bitstreams)“ (Ulrich 2010: Kap. 8:3), das Einhalten eventueller datenschutz- 
rechtlicher Vorgaben. Dabei muss der Zugang zu den Daten für die Projektbeteiligten ebenso 
wie für Dritte zu Replikationszwecken über die Jahre hinweg gewährleistet werden. Schließ- 
lich sind die Kosten der Sicherung und eventuelle Mehraufwendungen, z.B. im Rahmen einer 
standardisierten Dokumentation, zu berücksichtigen und in die Projektplanung aufzunehmen 
(zu Kosten bzw. Modellen der Kostenermittlung vgl. Kimpton/Morris 2014; Beagrie 2011). 

Alternativ zum längerfristigen Erhalt durch das Forschungsprojekt lassen sich die Daten 
auch in einem Datenrepositorium archivieren. Repositorien ermöglichen die längerfristige 
Sicherung der Daten unter Einhaltung rechtlicher Vorgaben und gewährleisten deren Zu- 
gänglichkeit für die Projektbeteiligten ebenso wie für Dritte zu Replikationszwecken. Im 
Rahmen der Projektplanung sollten Forschende frühzeitig die sachgerechte Sicherung oder 
Archivierung in einer Dateninfrastruktureinrichtung thematisieren. In der Entwicklung eines 
Konzepts zum längerfristigen Datenerhalt gilt es, mögliche Anforderungen an die zu archi- 
vierenden Daten, die Abläufe der Archivierung sowie die Nutzungsbedingungen des jewei- 
ligen Repositoriums rechtzeitig zu beachten und entsprechend im Projektverlauf umzusetzen. 
Dabei ist auch zu klären, was nach Ablauf der vertraglich geregelten Archivierungsfrist mit 
den Daten im Repositorium geschieht. Letztendlich müssen eventuelle Archivierungskosten 
des jeweiligen Repositoriums berücksichtigt und im Rahmen der Projektplanung budgetiert 
werden. Schaukasten 3.6 fasst die Themen und Fragestellungen zusammen, die bei der Pla- 
nung zur Sicherstellung replizierbarer Forschungsergebnisse berücksichtigt werden sollten. 
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Schaukasten 3.6: Die Replizierbarkeit von Forschungsergebnissen sicherstellen 
Vorabüberlegungen: 


« Zu welchem Zweck sollen die Daten längerfristig erhalten werden? 
+ Welche Standards und Vorgaben Dritter müssen beim Datenerhalt beachtet werden? 


Organisatorischer und technischer Datenerhalt: 


Welche Daten und Begleitdateien sollen erhalten werden? 

Wo und wie lange erfolgt die Sicherung nach Projektende? 

Wie wird der Datenzugang für Projektbeteiligte und Dritte zu Replikationszwecken geregelt? 

Wie erfolgt die technische Sicherung, d.h. Bit-Stream-Sicherung, Prüfung der Lesbarkeit, Back-ups 
etc.? 

+ In welchen Dateiformaten werden die Daten und Begleitdateien gespeichert? 

+ Was geschieht mit den Daten nach Ablauf der Sicherungsfrist? 

+ Welche Kosten fallen zusätzlich an und wie werden diese durch das Projektbudget gedeckt? 


Dokumentation: 


+ Sind alle Daten ausreichend dokumentiert? 
+ Welche Metadaten(-standards) werden genutzt? 
¢ Wird ein kontrolliertes Vokabular genutzt? 


Datenschutz: 


« Ermöglicht die informierte Einwilligung den längerfristigen Datenerhalt? 

« Sind die Daten ausreichend anonymisiert? 

+ Wie werden schwach bzw. nicht anonymisierte Daten vor dem unautorisierten Zugriff Dritter länger- 
fristig geschützt? 


Urheberrechte: 


° Liegt die Genehmigung aller Urhebenden zum längerfristigen Datenerhalt vor? 
+ Sind Urheberrechte Dritter vom Datenerhalt betroffen? 
+ Wie werden ggf. Urheberechte Dritter berücksichtigt und Verwertungsrechte sichergestellt? 


Ressourcen: 


« Sind die notwendigen Ressourcen zum langerfristigen Datenerhalt im Projektbudget berücksichtigt? 


Quelle: Eigene Darstellung 


3.2.2 Die Bereitstellung von Forschungsdaten zur Nachnutzung 


In Abgrenzung zum Datenerhalt zu Replikationszwecken geht es bei der Bereitstellung der 
Daten (Data Sharing) um die Méglichkeit Dritter, diese in neuen Kontexten nachnutzen zu 
können. Die sogenannte Sekundäranalyse von bestehenden Datenbeständen ist eine aner- 
kannte Forschungsstrategie, die von Forschenden der eigenen Disziplin bzw. von Nachbar- 
disziplinen bis hin zu transdisziplinär Forschenden genutzt wird. Sie umfasst die Nachnut- 
zung bereits existierender Daten zum Vergleich thematisch und methodisch ähnlicher Da- 
tensätze, zur Bearbeitung neuer Forschungsfragen ebenso wie z.B. in der akademischen 
Lehre, ohne dabei selbst Daten generieren zu müssen. 

Analog zum Datenerhalt zu Replikationszwecken reicht das Ziel der Datenbereitstellung 
weit über das eigentliche Forschungsprojekt hinaus. Die Nachnutzung der Daten durch Dritte 
findet häufig erst statt, wenn das Forschungsprojekt als solches bereits beendet und das Ana- 
lysepotential der Daten im Rahmen des originären Frageprogramms weitestgehend ausge- 
schöpft ist. Die Bereitstellung der Daten muss aber im Verlauf des eigentlichen Forschungs- 
projekts geplant und vorbereitet werden, auch wenn diese erst zum Projektende Dritten ver- 
fügbar gemacht werden. 
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Dabei sollten sich die Forschenden zunächst mit etwaigen Auflagen zum Data Sharing 
auseinandersetzen. Diese können sich z.B. aus institutseigenen Verpflichtungen, etwa zum 
Open Access im Rahmen der Berliner Erklärung (2003), oder aus Regelungen z.B. von Dritt- 
mittelgebern ableiten. So fordert beispielsweise die DFG (2015: 1), dass bereits bei der Pla- 
nung des zu beantragenden Forschungsprojektes Überlegungen angestellt werden, 


ob und welche der aus einem Vorhaben resultierenden Forschungsdaten für andere Forschungskontexte 
relevant sein können und in welcher Weise diese Forschungsdaten anderen Wissenschaftlerinnen und 
Wissenschaftlern zur Nachnutzung zur Verfügung gestellt werden können. 


Diese sollten „so zeitnah wie möglich verfügbar gemacht werden“ (ebd.) und Dritten die 
weitere (Nach-)Nutzung ermöglichen. 

Mit derartigen Auflagen einher gehen zumeist Forderungen zum Betreiben eines geeig- 
neten Forschungsdatenmanagements und dessen Dokumentation, etwa in Form des Daten- 
managementplans. Damit soll sichergestellt werden, dass die im Projektverlauf generierten 
Daten auch tatsächlich bereitgestellt werden können (vgl. etwa die Anforderungen in Horizon 
2020 Programme — European Commission 2016). Gerade Forschende in Drittmittelprojekten 
sollten sich mit derartigen Auflagen zur Bereitstellung ihrer Daten und zur Erstellung eines 
Datenmanagementplans vertraut machen. Generell gilt, dass sich dieser Datenmanagement- 
plan für Drittmittelgeber von der projektinternen Dokumentation des Forschungsdatenmana- 
gements unterscheidet. Im Gegensatz zum projektinternen Datenmanagementplan sollte sich 
das Berichtwesen gegenüber Mittelgebern auf die wesentlichen Aspekte der Generierung 
nachnutzbarer und weitergabefähiger Daten fokussieren und bestehende Anforderungen und 
Auflagen berücksichtigen. 

Analog zum Datenerhalt zu Replikationszwecken müssen Forschende im Rahmen ihrer 
Projektplanung die Entwicklung eines Konzepts zur Bereitstellung ihrer Daten angehen. Die- 
ses Konzept muss, unter Berücksichtigung etwaiger spezifischer Förderauflagen, zunächst 
klären, welche Daten und Dateien, wem, unter welchen Bedingungen, wie bereitgestellt wer- 
den sollen. Im Gegensatz zum Datenerhalt zu Replikationszwecken werden zur Sekundär- 
analyse zumeist nur einige wenige Dateien des ursprünglichen Forschungsprojekts zur Ver- 
fügung gestellt. So werden in der Regel die ursprünglich erhobenen und noch nicht aufberei- 
teten (Roh-)Daten des Forschungsprojekts nicht für Dritte verfügbar gemacht, sondern ggf. 
nur längerfristig zu Replikationszwecken gesichert. Dementgegen umfasst die Bereitstellung 
zur Nachnutzung zumeist nur die Forschungsdaten sowie notwendige Begleitmaterialien zur 
Sicherung ihrer Nutzbarkeit, wie beispielsweise die Datendokumentation. Im Vergleich zum 
Datenerhalt zu Replikationszwecken sollten Forschende bei der Datenbereitstellung zur 
Nachnutzung aber nicht nur jene Daten zugänglich machen, die zur Erstellung der unter- 
schiedlichen Projektergebnisse verwendet wurden. Vielmehr sollten alle im Forschungspro- 
jekt generierten Daten — wenn möglich in einem integrierten Datensatz — bereitgestellt wer- 
den. Dieser kann auch Informationen enthalten, die im Forschungsprojekt zwar erhoben wur- 
den, in der eigentlichen Projektarbeit aber ungenutzt blieben. Die Forschenden steigern damit 
das Analysepotential ihrer Daten und erhöhen deren Nachnutzbarkeit durch Dritte. 

Neben der Frage, welche Daten verfügbar gemacht werden sollen, muss für das Konzept 
zur Erstellung nachnutzbarer Daten auch berücksichtigt werden, was die Bereitstellung über- 
haupt bedeutet. Um dies besser verstehen zu können, empfiehlt sich ein kurzer Blick auf die 
sogenannten FAIR Data Principles (Forcell 2017; Wilkinson et al. 2016; Recker et al. 
2015). Das Akronym FAIR steht für vier grundlegende Prinzipien — findable, accessible, in- 
teroperable und re-usable —, die die Daten erfüllen müssen, um als nachnutzbar zu gelten. 

Demzufolge müssen nachnutzbare Daten erstens auffindbar (findable) sein, d.h. Dritte 
müssen von den Daten Kenntnis erlangen können. Für die Forschenden impliziert dies, die 
Metadaten ihrer Daten möglichst publik zu machen, etwa über die eigene Projektwebseite 
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oder durch die Registrierung der Daten in Datenkatalogen wie DataCite (2016). Zweitens 
müssen die Daten für Dritte sowohl physisch als auch rechtlich zugänglich (accessible) sein. 
Dritte müssen tatsächlich auf die Daten zugreifen können, was sowohl die Formate der ein- 
zelnen Dateien als auch die damit verbundenen Zugangsrechte betrifft. 


Schaukasten 3.7: datorium — Datenrepositorium für die Sozial- und Wirtschaftswissenschaften 
https://datorium.gesis.org/xmlui/ 


datorium ist ein Service für die eigenständige Dokumentation, Sicherung und Veröffentlichung von For- 
schungsdaten, der durch eine Nutzungsbedingung abgesichert wird. 


Registrierung der Daten: 


Einspielen von Metadaten in Online-Katalogen zur freien Recherche im Internet; 
Vergabe eines Digital Objective Identifiers (DOI 2018) zur eindeutigen Zitier- und Referenzierbarkeit. 


Nachnutzung: 


Lizensierung der Daten zur Nachnutzung für Dritte; 
physische und rechtskonforme Zugänglichkeit für mindestens zehn Jahre. 


datorium bietet darüber hinaus Unterstützung bei der Datenbereitstellung, etwa in Form von Handreichungen 
und Best-Practise-Empfehlungen, z.B. zum Umgang mit Syntaxen oder zur Aufbereitung und Anonymisie- 
rung quantitativer Daten (datorium o.J.b) 


Quelle: Eigene Darstellung 


Die beiden Prinzipien der Auffindbarkeit und Zugänglichkeit hängen dabei primär von zwei 
Fragen ab: Wie und wo werden die Daten archiviert und für Dritte bereitgestellt? Forschende, 
die ihre Daten bereitstellen wollen, sollten daher bereits bei der Projektplanung überlegen, 
ob die Daten durch das Forschungsprojekt selbst — z.B. über die Projektwebseite! — oder via 
externer Dateninfrastruktureinrichtungen — z.B. ein institutionelles oder disziplinspezifisches 
überregionales Datenrepositorium- verfügbar gemacht werden sollen (ZBW/GESIS/ 
RatSWD 2015: 22; vgl. die ausführliche Darstellung in Kapitel 7). Repositorien sichern die 
physische und rechtskonforme Zugänglichkeit der Daten und steigern deren Auffindbarkeit, 
u.a. durch die Registrierung der Daten in Datenkatalogen und die Vergabe persistenter Iden- 
tifikatoren (Corti et al. 2014; Huschka et al. 2011; Jensen/Katsanidow/Zenk-Möltgen 2011; 
Doorn 2010). Schaukasten 3.7 zeigt ein Beispiel für ein derartiges disziplinspezifisches, 
überregionales Datenrepositorium: datorium (0.J.a), ein Service von GESIS - Leibniz-Insti- 
tut für Sozialwissenschaften. 

Das dritte FAIR-Prinzip bezieht sich auf die /nteroperabilität der Daten. Dritte müssen 
die bereitgestellten Daten technisch nachnutzen können. Dies betrifft zum einen die verwen- 
deten Dateiformate. Forschende sollten sich an disziplinspezifischen Standards orientieren 
und möglichst auf nicht-proprietäre Formate zum Speichern der Daten und Begleitmateria- 
lien zurückgreifen. Zum anderen umfasst Interoperabilität die Datendokumentation. Diese 
sollte auf einem kontrollierten Vokabular basieren und disziplinspezifische (Metadaten- 
)Standards nutzen, um die Transparenz der Daten und ihre Verständlichkeit dauerhaft zu er- 
höhen. 

Das letzte FAIR-Prinzip benennt schließlich die analytische Nachnutzbarkeit (re-usable) 
der Daten. Um mit den Daten in neuen (Forschungs-)Kontexten weiterarbeiten zu können, 
müssen Dritte diese inhaltlich und methodisch verstehen, interpretieren und nachvollziehen 
können. Dementsprechend ist es erforderlich, dass alle für die Nachnutzung relevanten 


1 Die Bereitstellung der Daten über das Projektende hinaus ist allein durch das eigene Forschungsprojekt zumeist 
schwer zu realisieren. So fehlen zumeist die notwendigen technischen und personellen Ressourcen, um den 
Zugang zu den Daten längerfristig sicherzustellen. 
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Informationen vorliegen. Nur so können das Analysepotential der Daten und deren Qualität 
beurteilt werden. Dies umfasst die Daten als solche ebenso wie ihren Entstehungsprozess, 
die zugrunde liegenden methodischen Aspekte des Studiendesigns, die Datenerhebung etc. 
Insgesamt gilt, dass die Daten in Kombination mit ihrer Dokumentation selbsterklärend sein 
müssen und Dritte diese nachnutzen können, ohne weitere Informationen von den ursprüng- 
lichen Forschenden einzuholen. Haben die Forschenden bei der Aufbereitung und Dokumen- 
tation ihrer Daten im Rahmen des projektinternen Forschungsdatenmanagements bereits ein 
besonderes Augenmerk auf die Vollständigkeit der Informationen und die Verwendung von 
(Metadaten-)Standards gelegt, werden wesentliche Anforderungen für die analytische Nach- 
nutzbarkeit der Daten bereits erfüllt sein. 

Um Daten entsprechend der FAIR-Prinzipien für Dritten nachnutzbar zu machen, müssen 
abermals rechtliche Aspekte berücksichtigt und in ein entsprechendes Bereitstellungskonzept 
integriert werden. Dies betrifft zum einen den Datenschutz. Analog zum Datenerhalt zu Re- 
plikationszwecken darf auch die Bereitstellung der Daten und deren Nachnutzung nicht per 
se durch die Einwilligungserklärung ausgeschlossen werden und die Daten müssen zur Wei- 
tergabe an Dritte ausreichend anonymisiert sein. Daten, die nicht oder nicht ausreichend ano- 
nymisiert werden können, z.B. um deren Analysepotential zu erhalten, müssen ggf. mit spe- 
ziellen Zugangs- und Nachnutzungsrechten versehen und unter bestimmten organisatori- 
schen und rechtlichen Bedingungen verfügbar gemacht werden, wie im Abschnitt 3 des vier- 
ten Kapitels näher ausgeführt wird. Zum anderen müssen die notwendigen Urheberrechte 
vorliegen, um entsprechende Verwertungsrechte, etwa zur Nachnutzung, an Dritte übertra- 
gen zu können, wie in Abschnitt 3.1.3 erörtert. 

Letztendlich müssen im Konzept zur Bereitstellung der Daten die dabei anfallenden Kos- 
ten eingeplant und budgetiert werden. Ebenso wie beim Datenerhalt zu Replikationszwecken 
betrifft dies zunächst die Mehraufwendungen zur Erstellung nachnutzbarer Daten und deren 
Begleitmaterialien, wie z.B. die Datendokumentation. Darüber hinaus müssen ggf. aber auch 
Aufwendungen zur Gewährleistung der Auffindbarkeit und Zugänglichkeit der Daten be- 
rücksichtigt werden (vgl. zu Kosten bzw. zur Kostenermittlung Kimpton/Morris 2014; Beag- 
rie 2011). Ist die Bereitstellung der Daten mit einer Auflage durch Drittmittelgeber verbun- 
den, sollten die Forschenden klären, ob und wie sie entsprechende Mehraufwendungen be- 
antragen können. So folgen beispielsweise das Horizon 2020 Programme (2016) ebenso wie 
die DFG (2015: 1) dem Förderansatz, dass 


projektspezifische Kosten, die im Rahmen eines wissenschaftlichen Projekts bei der Aufbereitung von 
Forschungsdaten für eine Anschlussnutzung bzw. für die Überführung von Forschungsdaten in existie- 
rende Infrastrukturen entstehen, [...] eingeworben werden [können]. 


Um diese Kosten adäquat geltend zu machen, ist eine frühzeitige Planung im Rahmen des 
Projektantrags unabdingbar. 

In diesem Zusammenhang sollten Forschende auch prüfen, ob verschiedene Aktivitäten 
zur Generierung nachnutzbarer Daten nicht durch spezialisierte Dienstleister erbracht werden 
können. So bietet beispielsweise das Datenarchiv für Sozialwissenschaften der GESIS im 
Rahmen der Datenarchivierung (GESIS 2018a) spezifische Datenservices an, z.B. zur Auf- 
bereitung und Dokumentation von Forschungsdaten (GESIS 2018b). Entsprechenden Akti- 
vitäten werden damit an ein speziell geschultes Fachpersonal übertragen, deren Kompeten- 
zen in der Aufbereitung und Dokumentation von Daten nach (internationalen) Standards lie- 
gen. Umgekehrt schaffen sich Forschende so den Freiraum, sich primär auf ihre Forschung 
und weniger auf die Generierung und Bereitstellung ihrer Daten zu konzentrieren. Die ent- 
stehenden Kosten zur Auslagerung derartiger Aktivitäten des Forschungsdatenmanagements 
an Serviceeinrichtungen müssen dabei im Projektbudget berücksichtigt und ggf. gegenüber 
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den Drittmittelgebern geltend gemacht werden. Schaukasten 3.8 fasst die wesentlichen As- 
pekte und Fragen zur Planung der Bereitstellung von Forschungsdaten zusammen. 


Schaukasten 3.8: Die Bereitstellung von Forschungsdaten zur Nachnutzung 
Vorabüberlegungen: 


« Zu welchem Zweck sollen die Daten bereitgestellt werden? 
+ Welche Standards und Vorgaben Dritter, wie z.B. Forschungsförderer, sind zu beachten? 
+ Welche Richtlinien und Empfehlungen von Datenrepositorien sind ggf. zu beachten? 


organisatorische und technische Bereitstellung: 


Welche Daten und Begleitdateien sollen bereitgestellt werden? 

Wie und wo werden die Daten und Begleitdateien bereitgestellt? 

Wie wird die Auffindbarkeit und Zugänglichkeit zu den Daten und Begleitdateien sichergestellt? 
In welchen Dateiformaten werden die Daten und Begleitdateien bereitgestellt? 


Dokumentation: 


« Sind die Daten selbsterklärend dokumentiert? 

« Welche zusätzliche Dokumentation ist erforderlich, um die Transparenz und Verständlichkeit der 
Daten zu gewährleisten? 

+ Welche Metadaten(-standards) werden genutzt? 

° Wird ein kontrolliertes Vokabular genutzt? 

+ Werden die Daten zu besseren Auffindbarkeit und Zitierbarkeit registriert? 


Datenschutz: 


+ Ermöglicht die informierte Einwilligung die Nachnutzung der Daten durch Dritte? 
« Sind die Forschungsdaten ausreichend anonymisiert? 
+ Wie wird die Nachnutzung schwach- bzw. nicht-anonymisierter Daten geregelt? 


Urheber- und Verwertungsrechte: 


+ Liegt die Genehmigung aller Urhebenden zur Bereitstellung der Daten vor? 
+ Bestehen Urheberrechte Dritter an bereitzustellenden Materialien? 
e Wie wird das Übertragen von Verwertungsrechten zur Nachnutzung geregelt, z.B. durch Lizenzen? 


Ressourcen: 


« Entstehen durch die Bereitstellung zusätzliche Kosten, z.B. durch die Archivierung oder durch eine 
granulare Datendokumentation? 

« Sind zusätzliche Kosten im Projektbudget eingeplant? 

« Können zusätzliche Kosten ggf. gegenüber Drittmittelgebern geltend gemacht werden? 


Quelle: Eigene Darstellung 


3.3 Abschließende Bemerkung 


Forschungsdatenmanagement ist ein Muss für jedes empirische Forschungsprojekt. Eine sys- 
tematische und frühzeitige Planung des Forschungsdatenmanagements ist eine der zentralen 
Voraussetzungen zur erfolgreichen Umsetzung des eigentlichen Forschungsvorhabens. Nur 
durch entsprechende Konzepte im Rahmen der Projektplanung kann sichergestellt werden, 
dass in der angestrebten Datenanalyse qualitativ hochwertige Forschungsdaten vorliegen, die 
auf Basis ihrer Dokumentation transparent, verständlich und nachvollziehbar sind und eine 
rechtskonforme Nutzung erlauben. Dabei ist das Forschungsdatenmanagement auch ein Pla- 
nungsinstrument zum Umgang mit den Daten über das Projektende hinaus. Die Entwicklung 
und Implementierung von Konzepten zum längerfristigen Datenerhalt bzw. zur 
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Bereitstellung der Daten zur Nachnutzung durch Dritte macht das Forschungsdatenmanage- 
ment zu einem elementaren Bestandteil guter wissenschaftlicher Praxis. Es sichert Transpa- 
renz im Forschungsprozess, ermöglicht die Replikation von Forschungsergebnissen ebenso 
wie von verwendeten Daten und schafft die notwendigen Voraussetzungen zur weiteren Nut- 
zung der Daten in neuen Kontexten. 

Abschließend bleibt hervorzuheben, dass jedes Forschungsprojekt ein Unikat ist und die 
dort generierten Forschungsdaten einzigartig sind. Eine systematische Planung des For- 
schungsdatenmanagements muss dieser Einzigartigkeit gerecht werden und sich am jeweili- 
gen Forschungsprojekt und den zu generierenden Daten orientieren. Zur Planung des pro- 
jektinternen Forschungsdatenmanagements ebenso wie zur Implementierung weiterführen- 
der Maßnahmen sollten Forschende daher zunächst ihr eigentliches Forschungsvorhaben re- 
flektieren. Dabei gilt es klar zu definieren, welche weiterführenden Ziele die Forschenden im 
Umgang mit den Daten über das Projektende hinaus anstreben. Aufbauend auf dem Projekt- 
vorhaben, den zu generierenden Daten und den damit verbundenen weiterführenden Zielen 
lassen sich dann das projektinterne Forschungsdatenmanagement und die notwendigen Maß- 
nahmen zum Datenerhalt bzw. zur Datenbereitstellung gezielt planen, in die Projektabläufe 
integrieren und im Projektverlauf systematisch umsetzen. 
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4. Datenschutz im Forschungsdatenmanagement! 


Oliver Watteler und Thomas Ebel 


In den Sozialwissenschaften wird oft mit personenbezogenen und eventuell sensiblen Daten 
von Studienteilnehmer/innen geforscht. Erhebung, Verarbeitung und Nutzung von personen- 
bezogenen Daten unterliegen dann datenschutzrechtlichen und forschungsethischen Bestim- 
mungen. 

Ziel dieses Kapitels ist es, sozialwissenschaftlichen Forscher/innen die grundlegenden 
Regelungen im Bereich des Datenschutzes aufzuzeigen und Anleitungen aus der Praxis zu 
bieten, wie diese Regelungen konkret umgesetzt werden können. 

Zu diesen Zwecken werden im ersten Abschnitt (4.1) dieses Kapitels forschungsethische 
und datenschutzrechtliche Aspekte in der sozialwissenschaftlichen Forschung erörtert. Daran 
anschließend diskutiert Abschnitt 4.2 den Datenschutz in den unterschiedlichen Phasen eines 
Forschungsprojekts. Im dritten Abschnitt (4.3) werden Anonymisierungsmöglichkeiten für 
quantitative Daten vorgestellt und anhand von Fallbeispielen aus der Praxis verdeutlicht. Ab- 
schließend gehen wir auf häufig wiederkehrende Fehler von Forscher/innen in der Umset- 
zung datenschutzrechtlicher Bestimmungen ein (Abschnitt 4.4). 


4.1 Der Datenschutz in der sozialwissenschaftlichen Forschung 


Fragen des Datenschutzes betreffen Daten, die von Individuen oder über sie erhoben werden 
(human subject research). Solche Daten fallen u.a. in Befragungen an. Für unsere Zwecke 
unterscheiden wir drei große Bereiche von Individualdaten: Erstens den Bereich der amtli- 
chen Statistik, zweitens den Bereich prozess-produzierter Daten, zu denen man auch inter- 
netbasierte Daten (z.B. Social-Media-Daten) zählen kann, und drittens Daten aus eigenen 
Befragungen (Watteler 2017: 127-136). 

Die Daten werden u.a. durch Messungen, also die Zuordnung von Zahlen zu Objekten 
oder Ereignissen, oder über qualitativ orientierte Verfahren, wie offene Interviews oder Be- 
obachtung, gewonnen (ebd.). Unabhängig davon, welche Methoden verwendet werden, be- 
ziehen sich die Untersuchungen, mit denen wir uns an dieser Stelle befassen, auf Personen. 
Beim Umgang mit diesen Personen, der Beobachtung ihres Verhalten, der Erfragung ihrer 
Ansichten und Einstellungen oder der Darstellung ihrer sozialen und wirtschaftlichen Le- 
bensbedingungen sind besondere forschungsethische Rahmenbedingungen zu beachten. Die 
Personen dürfen nicht geschädigt werden und es sind rechtliche Regelungen und freiwillige 
Verpflichtungen zu ihrem Schutz zu beachten (Graumann 2006: 253-256). Dazu zählen die 
Persönlichkeitsrechte, wie das Recht auf informationelle Selbstbestimmung, das Recht am 
eigenen Bild oder das Recht auf Privat- und Intimsphäre (Palandt 2008: 1216-1226). Ein 
besonderes Schutzrecht ist der Datenschutz (RatSWD 2016; Höhne 2010; Watteler 2010; 
Bethlehem 2009; Wirth 2003; Metschke/Wellbrock 2002; Wirth 1992), wonach „die Grund- 
rechte und Grundfreiheiten natürlicher Personen und insbesondere deren Recht auf Schutz 


1 Wir danken dem externen Datenschutzbeauftragten von GESIS, Harald Eul, und Wolfgang Jagodzinski für 
ihre Anmerkungen und Änderungsvorschläge. 
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personenbezogener Daten“ zu wahren sind (Datenschutz-Grundverordnung (DSGVO) Art. 1 
Abs. 2). Neu ist infolge der DSGVO, dass der Grundrechtsschutz und nicht mehr der Schutz 
der Daten im Vordergrund steht.” Mit natürlichen Personen sind im Rahmen des seit 25. Mai 
2018 geltenden Rechts lebende Menschen gemeint. Die Handreichung Datenschutz des Ra- 
tes für Sozial- und Wirtschaftsdaten (RatSWD 2017) bietet einen sehr guten Überblick über 
das Thema. Wir konzentrieren uns daher im Folgenden auf praktische Hinweise zum Um- 
gang mit Daten, die in sozialwissenschaftlichen Projekten bei Personen erhoben worden. Wir 
beginnen mit einem Überblick über die aktuelle rechtliche Situation.’ 
Grundsätzlich kann man drei Ebenen des Datenschutzrechts unterscheiden: 


1. die Ebene der Grundrechte, die in der deutschen Verfassung sowie in der Charta der Grundrechte der 
Europäischen Union verankert sind, 

2. die Ebene der Einzelgesetze (national wie international) und 

3. die Ebene der Regulierungen etwa über wissenschaftliche Fachgremien. 


Schaukasten 4.1: Definition personenbezogene/-beziehbare Daten 
Personenbezogene Daten 


Personenbezogene Daten wurden im Bundesdatenschutzgesetz bisher definiert als „Einzelangaben über 
persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffe- 
ner)“ (§ 3 Abs. 1 BDSG). Personenbezogene Daten sind in Zukunft „alle Informationen, die sich auf eine 
identifizierte oder identifizierbare natürliche Person [...] beziehen“ (Art. 4 Abs. 1 DSGVO). Identifizierbar ist 
eine natürliche Person, wenn sie direkt oder indirekt unter Zuhilfenahme anderer Daten und Merkmale iden- 
tifiziert werden kann (ebd.). 


Besondere Arten personenbezogener Daten 


Das BDSG, die EU-Datenschutzrichtlinie 95/46/EG und die DSGVO heben einige Merkmale natürlicher Per- 
sonen als besonders schutzwürdig hervor. Dies waren im bisherigen BDSG „Angaben über die rassische 
und ethnische Herkunft, politische Meinungen, religiöse oder philosophische Überzeugungen, Gewerk- 
schaftszugehörigkeit, Gesundheit oder Sexualleben“. Die DSGVO übernimmt in Artikel 9 (Verarbeitung be- 
sonderer Kategorien personenbezogener Daten) diese Aufzählung und erweitert sie explizit um genetische 
und biometrische Daten (Art. 9 Abs. 1 DSGVO). 


Personenbeziehbare Daten 


Wenn eine Identifizierung nur indirekt, beispielsweise durch die Kombination mehrerer Merkmalswerte in den 
Daten, durch Zusatzwissen oder die Kombination mit externen Datenquellen möglich erscheint, wurde bisher 
der Begriff der Personenbeziehbarkeit verwendet (Metschke/Wellbrock 2002: 15). Den Unterschied zwischen 
personenbezogenen und personenbeziehbaren Daten macht die DSGVO nicht mehr. 


Quelle: Eigene Darstellung 


Auf der Ebene der Grundrechte steht dem Recht auf Freiheit der Forschung das Recht des 
Einzelnen auf informationelle Selbstbestimmung gegenüber. Beide sind im Grundgesetz fest- 
geschrieben oder wurden durch Auslegung des Bundesverfassungsgerichts (BVerfG) ge- 
nauer bestimmt. Diese beiden Grundrechte wurden auch in die Charta der Grundrechte der 
Europäischen Union übernommen. So bezieht sich Artikel 8 ausdrücklich auf den Schutz 
personenbezogener Daten und umreißt die Rahmenbedingungen für den Datenschutz, etwa 
die Verarbeitung von Daten für festgelegte Zwecke und die Einwilligung zur Verarbeitung 
durch betroffene Personen. Artikel 13 der Charta bestimmt, dass die Forschung frei ist. 


2 Bis zum Inkrafttreten der DSGVO war unter Datenschutz der Schutz einer natürlichen Person davor zu verste- 
hen, „durch den Umgang mit seinen personenbezogenen Daten in seinem Persönlichkeitsrecht beeinträchtigt“ 
zu werden (Bundesdatenschutzgesetz (BDSG-alt) $ 1 Abs. 1). 

3 Man muss berücksichtigen, dass sich zum Zeitpunkt der Erstellung dieses Textes (Sommer 2018) das Daten- 
schutzrecht vor allem durch das Inkrafttreten der DSGVO in Bewegung befindet. Daher können an dieser Stelle 
keine abschließenden Aussagen zum Datenschutzrecht getroffen werden. 
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Für den Fall, dass solche Grundrechte in Konflikt geraten, hat der Gesetzgeber Regelun- 
gen zu schaffen, die dem Grundsatz der praktischen Konkordanz entsprechen. Beispiele für 
Regelungen sind die inhaltlichen und formalen Anforderungen an rechtswirksame Einwilli- 
gungen in die Verarbeitung personenbezogener Daten. In diversen Gesetzen (u.a. DSGVO, 
Bundes- und Landesdatenschutzgesetze) wurden daher Voraussetzungen festgelegt, unter de- 
nen personenbezogene Daten für Forschungszwecke verarbeitet werden dürfen (zur Defini- 
tion personenbezogener bzw. -beziehbarer Daten s. Schaukasten 4.1). Ferner ist in der For- 
schung seit Längerem das Konzept des informed consent bekannt, welches die Entscheidung 
über eine freiwillige Teilnahme an Forschungsprojekten von ausreichender Information über 
das Vorhaben abhängig macht. 

Auf der Ebene der Einzelgesetze gibt es seit dem Inkrafttreten der DSGVO einen EU- 
weit einheitlichen Rahmen für das Datenschutzrecht. Die DSGVO löste im April 2016 die 
EU-Datenschutzrichtlinie 1995/46/EG ab und ist unmittelbar in allen EU-Mitgliedsstaaten 
anwendbar. Die Vorschriften der DSGVO dürfen vom nationalen Gesetzgeber nur abgeän- 
dert oder konkretisiert werden, wenn und soweit der europäische Gesetzgeber sogenannte 
Öffnungsklauseln vorgesehen hat. 

Einer der Anwendungsbereiche, die Änderungen sowohl auf europäischer als auch auf 
nationaler Ebene erfuhren, ist die Forschung. Auf der Basis der in der DSGVO genannten 
Öffnungsklauseln wurde das Bundesdatenschutzgesetz (BDSG-alt) im Juli 2017 durch das 
Gesetz zur Anpassung des Datenschutzrechts, kurz DSAnpUG-EU, reformiert (im Folgenden 
BDSG-neu). Das Gesamtbild der Änderungen in diesem Fall kann zum jetzigen Zeitpunkt 
noch nicht abschließend dargestellt werden. Insgesamt ist jedoch davon auszugehen, dass das 
bisher in der Forschung übliche Vorgehen (informierte Einwilligung, Zweckbindung, Tren- 
nung von direkten Identifizierungsmerkmalen von den Befragungsdaten, Risikoabschätzung 
u.a.) auch weiterhin Gültigkeit haben wird (vgl. Buchner 2016). 

Führt man also z.B. eine allgemeine Bevölkerungsumfrage im gesamten Gebiet der Bun- 
desrepublik Deutschland durch, so gelten die DSGVO und das Bundes- bzw. das jeweilige 
Landesdatenschutzgesetz.* Da Daten von Personen erhoben werden, gilt das Datenschutz- 
recht und das Prinzip des Verbots mit Erlaubnisvorbehalt. D.h., dass es keine anlasslose Da- 
tensammlung von personenbezogenen Daten geben darf.° Dieses Verbot gilt nicht, wenn Per- 
sonen z.B. ihre informierte Einwilligung erteilen (sogenannter Erlaubnistatbestand). Der Ein- 
willigung kommt somit wie oben bereits erwähnt eine zentrale Bedeutung für die wissen- 
schaftliche Forschung zu (zu den Details s. Schaukasten 4.2).° 


Schaukasten 4.2: Definition informierte Einwilligung („informed consent") 


Die Einwilligung zur Teilnahme an einer Untersuchung muss freiwillig erfolgen, die Person muss einwilligen 
können bzw. dürfen, die Informationen müssen verständlich sein und, falls die Einwilligung in Schriftform 
erfolgt, muss nachgewiesen werden, dass diese Art der Zustimmung vorliegt (Gola 2017 bietet im Kommen- 
tar zu Artikel 7 der DSGVO einen Überblick über die rechtliche Situation; Schaar 2017 geht auf die Neuerun- 
gen bei der Einwilligung ein). Die Einwilligung gilt als „Ausdruck des aus dem allgemeinen Persönlichkeits- 
recht abgeleiteten Rechts auf informationelle Selbstbestimmung“ (Rogosch 2013: 17). 


Quelle: Eigene Darstellung 


4 Im Einzelfall können bei der Erhebung und Verarbeitung von personenbezogenen oder personenbeziehbaren 
Daten weitere Gesetze Berücksichtigung finden. Zu diesen Gesetzen zählen etwa das Sozialgesetzbuch (SGB) 
oder auf Länderebene die Schulgesetze. 

5 Das Prinzip wird auch in der aktualisierten Rechtssituation beibehalten (Buchner 2016: 156). 

6 Anders liegt die Situation im Falle von Daten der amtlichen Statistik, bei denen die Teilnahme in aller Regel 
per Gesetz verpflichtend ist (Wirth 2016). Zu prozessproduzierten Daten, wie denen der Deutschen Renten- 
versicherung, vgl. z.B. Himmelreicher et al. (2017) und Hansen et al. (2012). 
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Die DSGVO regelt, welche Inhalte eine Einwilligungserklärung enthalten muss. Maßgeblich 
sind hier die Artikel 6 (Rechtmäßigkeit der Verarbeitung), 7 (Bedingungen für die Einwilli- 
gung), 8 (Bedingungen für die Einwilligung eines Kindes in Bezug auf Dienste der Informa- 
tionsgesellschaft) und 9 (Verarbeitung besonderer Kategorien personenbezogener Daten). 
Die Betroffenen müssen grundsätzlich freiwillig und informiert einwilligen. Voraussetzung 
dazu ist, dass sie umfassend über alle wesentlichen Aspekte der Rechtsgrundlagen und Zwe- 
cke der Verarbeitung ihrer Daten informiert werden (Schaukasten 4.3 bietet Verweise auf 
Vorlagen für Einwilligungserklärungen). 


Schaukasten 4.3: Beispiele für die Einwilligungserklärung 


ADM (Arbeitskreis Deutscher Markt und Sozialinstitute e.V.): Mustererklärung für mündliche oder schriftliche 
Interviews. https://www.adm-ev.de/datenschutz/ [Zugriff: 09.02.2017]. 


Forschungsdaten-Bildung: Checkliste für die Erstellung eigener Einwilligungserklärungen mit besonderer Be- 
rücksichtigung von Erhebungen an Schulen. http://www.forschungsdaten-bildung.de/get_files.php?ac- 
tion=get_file&file=FDB_Einwilligung_Checkliste.pdf [Zugriff: 28.07.2016]. 


RatSWD: Mustererklärungen für die Erhebung personenbezogener qualitativer Daten sowie deren Archivie- 
rung. http://www.ratswd.de/dl/RatSWD_WP_238.pdf [Zugriff: 28.07.2016]. 


QualiService: MUSTER - Einwilligungserklärung zur Erhebung und Verarbeitung personenbezogener Inter- 
viewdaten. http://www.qualiservice.org/fileadmin/text/Einverstaendnis2013_08.pdf [Zugriff: 07.06.2018]. 


Quelle: Eigene Darstellung 


Die Einwilligungserklärung sollte mindestens folgende Informationen enthalten (Schaar 
2017; Verbund Forschungsdaten Bildung/Rechtsanwälte Goebel & Scheller 2015; Metschke/ 
Wellbrock 2002: 25ff.): 


Identität der verantwortlichen und verarbeitenden Stelle(n), sprich in unserem Fall Leiter/in und Trä- 
ger/in des Forschungsvorhabens sowie Name und Kontakt der Stellen, an denen Daten verarbeitet 
werden (z.B. Einrichtungen der Markt- und Meinungsforschung); 

Zweckbestimmung der Verarbeitung der Daten (der Begriff Verarbeitung schließt sämtliche Phasen 
einer Datennutzung ein, wie etwa das Erheben, Erfassen, die Organisation, das Ordnen, die Speiche- 
rung, die Veränderung, das Auslesen, das Abfragen, die Verwendung, die Offenlegung, Verbreitung, 
die Verknüpfung oder das Löschen (vgl. Art. 4 Abs. 2 DSGVO), sprich in unserem Fall regelmäßig 
die Forschung als Zweck); 

Kategorien der Empfänger der Daten; 

Art der verarbeiteten Daten und Hinweis auf vertraulichen Umgang mit personenbezogenen Daten; 
Hinweis auf die Rechte der Befragten (Auskunft, Berichtigung, Widerruf und Löschung, die aber 
eingeschränkt werden können, wenn z.B. durch die Ausübung dieser Rechte die Verwirklichung der 
Forschungszwecke ernsthaft beeinträchtigt würde) und insbesondere auf die Freiwilligkeit der An- 
gaben und die Widerruflichkeit der Einwilligung mit Wirkung für die Zukunft; 

Bei Erhebung von besonderen Arten personenbezogener Daten sind diese gesondert und ausdrück- 
lich in der Einwilligungserklärung aufzuführen (Art. 9 Abs. 2a DSGVO; BDSG-neu $ 27 Abs. 1 
(Ausnahme); RatSWD 2017: 21ff.). 


Ergänzt werden muss die Einwilligungserklärung um Informationen über die Verarbeitung 
der Daten. Darunter fallen die Rechtsgrundlagen und Zwecke der Verarbeitung (soweit diese 
über die Einwilligung hinausgehen), eine eventuelle Datenübermittlung in Länder außerhalb 
der EU, die Speicher- bzw. Löschfristen der personenbezogenen Daten und das Beschwer- 
derecht bei einer Datenschutzaufsichtsbehörde. 

Vor dem Einholen von Einwilligungen ist zudem noch zu klären, ob die Betroffenen ein- 
willigen können (Mindestalter und Einsichtsfähigkeit), inwieweit es weitere Vorschriften 
gibt, die einzuhalten sind (insbesondere Landesgesetze und Schulgesetze bei Befragungen 
von Schülern/innen) und wer in den Adressatenkreis der Einwilligenden fällt (beispielsweise 
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bei Minderjährigen die Eltern).’ Idealerweise wird zusätzlich darauf hingewiesen, dass die 
Daten anderen Forscher/innen nur in einer Form zur Nachnutzung zur Verfügung gestellt 
werden, die keine Rückschlüsse auf die Person der Befragten zulassen. 

Ein weiterer Rechtsbereich, der besonders bei der Verarbeitung von internetbasierten Da- 
ten von Bedeutung ist, betrifft Lizenzrechte und das fehlende Einverständnis für die Nutzung 
von Daten für andere Zwecke. Unternehmen, die z.B. sogenannte Social-Media-Dienste wie 
Chats, Messaging, Info Boards oder den Tausch digitaler Bilder anbieten, behalten sich 
Rechte an den von ihnen verarbeiteten Inhalten vor. Diese Rechte werden in Allgemeinen 
Geschäftsbedingungen und in aller Regel in Datenschutzbestimmungen geregelt. Internetba- 
sierte Daten können als prozessproduzierte Daten gesehen werden. Wie im Falle anderer pro- 
zessproduzierter Daten, wie denen von Verwaltungen, wurden sie ursprünglich nicht zu Zwe- 
cken der Forschung erzeugt (zu Social-Media-Daten s. auch Kapitel 11; Bender et al. 2017; 
Lane et al. 2014). 

Auf der Ebene der Regulierungen haben sich viele Fachverbände freiwillige Verpflich- 
tungen zur Forschungsethik gegeben, die im Wesentlichen ähnliche Ideen aufgreifen. So 
stellt der Ethikcode der Deutschen Gesellschaft für Soziologie z.B. dar, dass bei der Daten- 
erhebung das Prinzip der informierten Einwilligung gilt und Studienteilnehmer/innen nicht 
geschädigt werden dürfen. Der Code erwähnt auch ausdrücklich den Schutz vor Re-Identifi- 
zierung. Schaar (2017) stellt die Regelungen verschiedener Fachverbände gegenüber. Dar- 
über hinaus richten viele Hochschulen derzeit allgemeine Ethikkommissionen ein, die For- 
schungsvorhaben im Vorfeld begutachten und Maßnahmen zum Schutz der Untersuchungs- 
personen vorschlagen (zu Ethikkommissionen in den Sozialwissenschaften vgl. von Unger/ 
Simon 2016). 

Diese knappe Darstellung des Datenschutzrechts verdeutlicht, dass es zwar eine Vielfalt 
rechtlicher und freiwilliger Regelungen auf verschiedenen administrativen Ebenen gibt, ein 
möglicher gemeinsamer Kern für viele sozialwissenschaftliche Projekte jedoch die infor- 
mierte Einwilligung der Untersuchungsperson auf der Basis ausreichender Angaben zum 
Forschungsvorhaben ist. Wie in der Praxis mit den Daten und dem Datenschutz umgegangen 
werden kann, um den Schutz der Grundrechte der Untersuchungspersonen bei der Verarbei- 
tung ihrer Daten zu gewährleisten, wird im Folgenden ausführlich dargelegt. 


4.2 Datenschutz in typischen Phasen der Forschung 


Die folgenden Ausführungen orientieren sich am sogenannten Lebenszyklus von Forschungs- 
daten, wie in Kapitel 2.2 dieses Buches vorgestellt. Im hiesigen Kontext spielen die Phase 
der Archivierung und Nachnutzung eine zentrale Rolle. Fehler, die eventuell in einer vorhe- 
rigen Forschungsphase gemacht wurden, lassen sich im Nachhinein zumeist nur noch schwer 
oder gar nicht korrigieren. 

Im Zusammenhang mit datenschutzrelevanten Aspekten unterscheiden wir im Folgenden 
generell drei zentrale Phasen im Lebenszyklus: 


1. Design- und Erhebungsphase, 
2. Aufbereitungs- und Analysephase, 
3.  Veröffentlichungs- oder Archivierungsphase. 


7 Eine Checkliste findet sich bei Verbund Forschungsdaten Bildung/Rechtsanwälte Goebel & Scheller (2015). 
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4.2.1 Design- und Erhebungsphase 


In der Designphase werden die grundsätzlichen Entscheidungen über Art und Umfang der 
Forschungsdaten getroffen, die im Projekt zur Beantwortung einer oder mehrerer For- 
schungsfragen verwendet werden sollen. Die anschließende Erhebungsphase bestimmt die 
Güte dieser Daten (vgl. u.a. Diekmann 2007: 186-229). Zentral für den Umgang mit For- 
schungsdaten prinzipiell und mit Datenschutz im Besonderen ist unseres Erachtens ein gut 
geplantes Forschungsdatenmanagement. Dies entspricht zum einen der guten wissenschaft- 
lichen Praxis und zum anderen dem Erforderlichkeitsgrundsatz des Datenschutzes (vgl. 
RatSWD 2017). Die Auseinandersetzung mit diesen Aspekten schon zu Beginn der For- 
schung erleichtert die spätere Veröffentlichung und Nachnutzung der Daten, wie in Kapitel 
3.2.2 ausführlicher dargestellt. Wir beziehen uns hier daher auf eine weitere Publikation des 
Rates für Sozial- und Wirtschaftsdaten zu diesem Thema (RatSWD 2016). In dieser werden 
u.a. folgende Leitfragen zum Umgang mit personenbezogenen Daten gestellt, die wir hier 
übernehmen (s. auch Schaukasten 4.4). 


„Welche Daten erheben oder verwenden Sie? “ (RatSWD 2016: 10) 


Prinzipiell steht es Forscher/innen frei, auf legalem Weg alle für ein Forschungsvorhaben 
notwendigen Daten zu erheben (s.o.). Je nach Design wird man im Rahmen einer sogenann- 
ten Sekundäranalyse auf bereits bestehende Daten zurückgreifen. Erhebungsprogramme wie 
das Sozio-oekonomische Panel (SOEP), das deutsche Nationale Bildungspanel (NEPS) oder 
die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) sind Beispiele 
für breit genutzte Datenbestände. In diesen Programmen und in Datenangeboten, die etwa 
von den im Rat für Sozial- und Wirtschaftsdaten (RatSWD) zusammengefassten Forschungs- 
datenzentren oder vom Datenarchiv von GESIS bereitgestellt werden, sind bereits organisa- 
torische Vorkehrungen für eine datenschutzkonforme Nachnutzung von Forschungsdaten ge- 
troffen. Eine Nachnutzung von Daten erfüllt auch das datenschutzrechtliche Gebot der Da- 
tenminimierung: „Personenbezogene Daten müssen [...] c) dem Zweck angemessen und er- 
heblich sowie auf das für die Zwecke der Verarbeitung notwendige Maß beschränkt sein“ 
(Art. 5 Abs. 1c DSGVO).® D.h., Forscher/innen erheben keine eigenen Daten und damit wer- 
den zu beforschende Personen weniger oft auf eine Teilnahme angesprochen. Da für die ge- 
nannten Daten bereits Regelungen getroffen wurden, konzentrieren wir uns im Folgenden 
auf die Erhebung eigener Daten. 


„Welche Nachnutzungsmöglichkeit der Daten planen Sie für die Zeit nach dem Projektende? Wie werden 
die Forschungsdaten innerhalb und nach Ablauf des Projekts genutzt? Werden Daten an mehreren Pro- 
Jektstandorten genutzt? “ (RatSWD 2016: 10) 


Bereits zu Beginn eines Projektes sollte man sich Gedanken darüber machen, ob und, wenn 
ja, wie die Daten nach Abschluss des Projektes weiterverwendet werden sollen. Vom ge- 
wählten Szenario hängt das Einverständnis der Befragten ab. 

Das Vorgehen beim Umgang mit Daten im Forschungsvorhaben und im Anschluss ist 
Teil der informierten Einwilligung. Die datenschutzrechtlichen Vorgaben zu Einwilligungen 
umfassen, wie im ersten Abschnitt dieses Kapitels erwähnt, die Informiertheit, die Zweck- 
bindung und die Freiwilligkeit. Befragte müssen vollständig über die Verwendung ihrer Da- 
ten aufgeklärt werden, damit sie wirksam einwilligen können. 

Zwischen dem Forschungsinteresse der Wissenschaftler und Wissenschaftlerinnen und 
datenschutzrechtlichen Vorgaben kann es in der Praxis zu einem Spannungsverhältnis kom- 
men. Zum einen kann zum Zeitpunkt der Erhebung nicht abgeschätzt werden, ob die 


8 Im BDSG-alt wurde von Datensparsamkeit gesprochen. 
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personenbezogenen Daten länger benötigt werden. Zum anderen wären bei sehr strikter Ab- 
grenzung des Zwecks spätere, auch vermeintlich geringfügige Änderungen des Forschungs- 
vorhabens oder Folgestudien ausgeschlossen. Ein wesentlicher Bestandteil der informierten 
Einwilligung ist daher der Nutzungszweck. Um Schwierigkeiten zu vermeiden, sind für die 
wissenschaftliche Forschung — im Gegensatz zu anderen Bereichen — weit gefasste Formu- 
lierungen der Zweckbindung akzeptabel. Dabei muss darauf geachtet werden, den Zweck 
hinreichend bestimmt zu umgrenzen und gleichzeitig die Erklärung so zu verfassen, dass eine 
inhaltliche Ausweitung der ursprünglichen Forschungsfrage möglich ist (Metschke/Well- 
brock 2002: 22f.). 

Die Verarbeitung der Daten zu Forschungszwecken und die Zusicherung der Verarbei- 
tung ohne Rückschlüsse auf die einzelne Person sind gängige Formulierungen in der Praxis. 
Im Sinne der Nachnutzung sollte besonders darauf geachtet werden, wie lange welche Daten 
vorgehalten werden sollen. Das Forschungsvorhaben (Projekt oder Programm) als Nutzungs- 
zweck ist von der wissenschaftlichen Forschung per se als Zweck ohne zeitliche Befristung 
zu unterscheiden (vgl. zur prinzipiellen Offenheit der Forschung aus rechtlicher Sicht Starck 
2010; aus wissenschaftstheoretischer Sicht vgl. Chalmers 2007). Ist eine längerfristige Da- 
tenerhebung, wie etwa ein Panel geplant, ist das Einbeziehen von Datentreuhändern möglich, 
der als einziger in der Lage ist, einen Personenbezug herzustellen. Dies kann als Instrument 
genutzt werden, um den Datenschutz einzuhalten und möglichen Sorgen der Betroffenen zu 
begegnen. 

Soll eine Studie mit minderjährigen Personen durchgeführt werden, ist zu beachten, dass 
ggf. die Eltern zusätzlich in die Erhebung einwilligen müssen. Ob dies zutrifft, hängt zum 
einen vom Alter der Befragten bzw. ihrer Einsichtsfähigkeit und zum anderen von den mög- 
lichen Schäden, die ihnen durch die Erhebung (und eine mögliche Re-Identifizierung) ent- 
stehen könnten. Üblicherweise werden als Mindestalter für das Vorliegen von Einsichtsfä- 
higkeit 14 oder 16 Jahre angenommen (Rogosch 2013: 49). Die DSGVO sieht als Alters- 
grenze für eine rechtmäßige Verarbeitung von Daten ohne Einwilligung der Eltern das 16. 
Lebensjahr vor (Art. 8 Abs. 1 DSGVO). Sollen Schüler/innen befragt werden, müssen dar- 
über hinaus spezielle Landesschulgesetze eingehalten werden. 

Idealerweise lassen Forscher/innen Befragte zusätzlich in die Archivierung ihrer Daten 
einwilligen. Auf diese Weise sind einerseits die Befragten umfänglich darüber informiert, 
was langfristig mit ihren Angaben geschieht, andererseits ist die Archivierung rechtlich ab- 
gesichert. 

Internetbasierte Forschung stellt Sozialwissenschaftler/innen vor neue Herausforderun- 
gen, da es schwierig, wenn nicht sogar unmöglich ist, informierte Einwilligungen zur Teil- 
nahme an einem Forschungsvorhaben einzuholen. Beispielsweise ermöglicht es der Mikro- 
blogging-Dienst Twitter Dritten, mehrere tausend Nachrichten, sogenannte Tweets, pro Tag 
zu durchsuchen und auszuwerten. Dies wird zwar in den Lizenzbedingungen des Unterneh- 
mens dargelegt, allerdings ist fraglich, ob diese Nutzung betroffenen Twitter-Nutzern be- 
wusst ist, wie in Kapitel 11 dargelegt. 

Überlegungen, warum personenbezogene Daten erhoben werden müssen, zu welchem 
Zeitpunkt Pseudonymisierungs- und/oder Anonymisierungsmaßnahmen unternommen wer- 
den sollen, sowie das Löschdatum für die personenbezogenen Daten müssen in dem eingangs 
erwähnten Forschungsdatenmanagementplan festgehalten werden. Falls es schriftliche Ein- 
willigungserklärungen gibt, müssen auch diese vorgehalten werden. 


9 Aus der täglichen Praxis kennen die Autoren Beispiele für Einverständniserklärungen, in denen eine Daten- 
nutzung ausschließlich im Rahmen des Forschungsprojektes vorgesehen wird. Damit ist unseres Erachtens eine 
Nachnutzung oder anonymisierte Archivierung ausgeschlossen, da die Befragten ihre Teilnahme auf der Basis 
der Erklärung machen. 
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Für den Fall, dass Forscher/innen zur Archivierung ihrer Daten verpflichtet sind oder eine 
Archivierung freiwillig anstreben, sollten sie sich frühzeitig mit dem Repositorium oder Da- 
tenarchiv ihrer Wahl in Verbindung setzen. Diese Einrichtungen helfen bei Fragen rund um 
datenschutzrechtliche Voraussetzungen oder Schutzmaßnahmen der Datenarchivierung (vgl. 
dazu ausführlich Kapitel 7.4). Die in Schaukasten 4.4 zusammengefassten Leitfragen des 
RatSWD (2016: 16) bieten eine beispielhafte Checkliste zur Datensicherheit im Forschungs- 
projekt an. 


Schaukasten 4.4: Checkliste zum weiteren Vorgehen bei der Datenspeicherung und -sicherung im Projekt 


, D.1 Wie werden die Daten während des Forschungsprozesses gespeichert und gesichert? 
Leitfragen: 
+ Werden Versionierungen der Dateien vorgenommen und wie erfolgt dies? 
Wie werden die Daten gesichert, d.h. welche Art von Sicherung wird in welchen Intervallen durchge- 
führt? 
Ist sichergestellt, dass ausreichende Kapazitäten für Speicherung und Sicherung der Daten zur Ver- 
fügung stehen? 


D.2 Wie wird der Zugriff auf die Daten verwaltet und werden die Daten vor Zugriffen Unbefugter geschützt? 


[...] 


Leitfragen: 


Wie wird verhindert, dass Unbefugte auf die Daten zugreifen können? 

Wie werden Daten bei der Übermittlung (z.B. zwischen den im Feld eingesetzten Systemen und den 
Systemen am Arbeitsplatz oder zwischen Projektmitarbeitenden unterschiedlicher Einrichtungen) 
geschützt?“ 


Quelle: Auszugsweise Darstellung nach RatSWD (2016: 16) 


4.2.2. Aufbereitungs- und Analysephase 


Daten, die direkte Identifikationsmerkmale wie Namen der Befragten, Anschriften oder E- 
Mail-Adressen enthalten, besitzen einen Personenbezug. Aber auch andere Merkmale, z.B. 
genaue Angaben zum Beruf oder kleinräumige Angaben zur Wohnregion, können eventuell 
indirekt mit den Befragten in Verbindung gebracht werden (siehe Abschnitt 4.3). Wie oben 
erläutert, können in Forschungsvorhaben alle Daten verarbeitet werden, in deren Verarbei- 
tung die Befragten informiert eingewilligt haben. Allerdings sollten während der Verarbei- 
tung bereits Schutzmaßnahmen getroffen werden. Dazu zählt etwa die getrennte Speicherung 
direkter Identifizierungsmerkmale. Das Datenschutzrecht sieht weitere Maßnahmen wie die 
Pseudonymisierung und die Anonymisierung vor, um Befragte auch über das Ende des For- 
schungsvorhabens hinaus zu schützen. Im Folgenden gehen wir zunächst auf die Pseudony- 
misierung und schlaglichtartig auf den sicheren Umgang mit Daten ein. Es folgt eine längere 
Darlegung des Konzeptes der Anonymisierung, das für die meisten Formen der Nachnutzung 
außerhalb des Forschungsvorhabens, etwa durch Dritte, wichtig ist. 


Das Konzept der Pseudonymisierung 


Die Pseudonymisierung erfährt in der DSGVO eine deutliche Aufwertung, indem sie in ver- 
schiedenen Artikeln als zentrales Instrument des Datenschutzes genannt wird, u.a. in Art. 25 
Abs. 1, Art. 32 Abs. 1 und Art. 89 Abs. 1 (vgl. Marnau 2016: 430ff.; Schaar 2016: 7ff.). Die 
DSGVO definiert Pseudonymisierung in Art. 4 Abs. 5 als eine „Verarbeitung personenbezo- 
gener Daten in einer Weise, dass die personenbezogenen Daten ohne Hinzuziehung zusätz- 
licher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden 
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können“. Diese wird durch Datentrennung erreicht. Dazu werden identifizierende von sons- 
tigen Angaben getrennt und in einem zweiten Datensatz untergebracht. Beide Datensätze 
sind durch eindeutige Zuordnungsschlüssel (Pseudonyme) wieder miteinander verknüpfbar. 
Die Möglichkeit der Feststellung der wahren Identität bleibt erhalten (Gola 2017 Art. 4: 173). 

Neben der Pseudonymisierung sollten personelle und technische Maßnahmen genutzt 
werden, die eine unkontrollierte Verbreitung von Dateien mit sensiblen Inhalten verhindern. 
Dazu zählt, die Verarbeitung der Daten auf bestimmte Personen zu beschränken. Nur Bear- 
beiter/innen, die mit den Bestimmungen des Datenschutzes vertraut ist, sollten im Projekt 
über Zugriffsrechte auf die (in der Regel mindestens pseudonymisierten) Daten verfügen 
(Häder 2009: 13). Die Daten sollten zudem nicht ungeschützt auf Netzlaufwerken abgelegt 
werden. In aller Regel gelangen Daten auf Netzlaufwerken nämlich (automatisiert) in Back- 
ups des Instituts oder eines Rechenzentrums. Zur Sicherung der personenbezogenen Merk- 
male bieten sich hier verschiedene Formen der technischen Verschlüsselung an (s. zur Da- 
tensicherheit Kapitel 5.3.3; Hammer/Knopp 2015: 507). 


Das Konzept der Anonymisierung 


Die DSGVO definiert Anonymisierung in Erwägungsgrund 26 derart, dass die Grundsätze 
des Datenschutzes nicht mehr für „Informationen, die sich nicht auf eine identifizierte oder 
identifizierbare natürliche Person beziehen, oder personenbezogene Daten [gelten], die in 
einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr 
identifiziert werden kann.“ Diese Definition wird in der Praxis absolute Anonymität genannt 
(s. Schaukasten 4.5). Die vielleicht unscheinbare Trennung zwischen nicht und nicht mehr 
weist jedoch darauf hin, dass Anonymisierung durch die DSGVO weiterhin als aktive Hand- 
lung bestimmt wird (so auch Wöjtowicz/Cebulla 2017: 187). Das BDSG-neu ergänzt ferner, 
dass besondere Kategorien personenbezogener Daten zu anonymisieren sind, sobald dies 
nach Forschungs- oder Statistikzweck möglich ist. 


Schaukasten 4.5: Anonymisierungsniveaus 


Unabhängig von der Rechtslage unterscheidet man in der einschlägigen Literatur drei Niveaus der Anonymi- 
sierung: die formale, die faktische und die absolute (Höhne 2010: 10f.; Metschke/Wellbrock 2002: Kap. 3.3). 


Formale Anonymisierung 


Die formale Anonymisierung umfasst das Entfernen direkter Identifizierungsmerkmale. Es gilt zu beachten, 
dass die Daten weiterhin datenschutzrechtlichen Bestimmungen unterliegen. 


Faktische Anonymisierung 


Faktische Anonymisierung entspricht der Teildefinition des bisherigen alten BDSG (§ 3 Abs. 6) zu Anonymi- 
sierung, nach der Einzelangaben „nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und 
Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“. 


Absolute Anonymisierung 


Von absoluter Anonymisierung spricht man, wenn es in jeder Hinsicht ausgeschlossen ist, dass Daten auf 
eine natürliche Person bezogen werden können. 


Quelle: Eigene Darstellung in Anlehnung an Höhne (2010) und Metschke/Wellbrock (2002) 


Zwar kennt das neue Datenschutzrecht auf europäischer und nationaler Ebene keine explizite 
Unterscheidung mehr zwischen absoluter und sogenannter faktischer Anonymität, allerdings 
wird im Erwägungsgrund 26 der DSGVO davon gesprochen, dass als objektive Faktoren, die 
„nach allgemeinem Ermessen wahrscheinlich zur Identifizierung der natürlichen Person ge- 
nutzt werden [können], [...] Faktoren, wie die Kosten der Identifizierung und der dafür 
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erforderliche Zeitaufwand, herangezogen werden“ sollten. Diese Bestimmung entspricht nun 
wiederum dem Ansatz der faktischen Anonymitat. Da die Unterscheidung zwischen den bei- 
den Ansätzen den Bereich der Archivierung und Nachnutzung von Daten auf Individual- 
ebene zu Forschungszwecken betrifft, erscheint uns eine Erläuterung hier wichtig. !° 

Es ist umstritten, ob Verantwortliche, also in unserem Fall die Forscher/innen, jedes mög- 
liche Risiko auch bei der Verarbeitung nicht mehr personenbezogener Daten im Griff haben 
müssen. Offen ist etwa die Frage, ob jedes Zusatzwissen über die Befragten den Verantwort- 
lichen zuzurechnen ist. Die Mehrheit der Autoren und Autorinnen folgt hier der sogenannten 
relativen Theorie. Diese geht davon aus, dass man lediglich das Wissen und die Fähigkeiten 
in Betracht ziehen muss, welche der verarbeitenden Stelle (also etwa dem Forschungsvorha- 
ben) momentan zur Verfügung stehen (Boehme-Neßler 2016: 420; Marnau 2016: 429f.; Karg 
2015: 525). Auch die DSGVO folgt dieser relativen Position. Prinzipiell ist das „Bestehen 
eines theoretischen Restrisikos der möglichen erneuten Individualisierung nach erfolgter 
Anonymisierung [...] von Gesetzes wegen hinzunehmen.“ (Gola 2017 Art. 6: 197) 

Bei einer Wiederherstellung des Personenbezugs, also einer möglichen Re-Identifizie- 
rung oder De-Anonymisierung, kann unseres Erachtens also nicht von einer absoluten Ano- 
nymität der hier betrachteten Forschungsdaten für die Nachnutzung ausgegangen werden. 
Diese Position wird auch von der Artikel-29-Datenschutzgruppe (2014) und dem Europäi- 
schen Gerichtshof geteilt (EUGH 2016, Urteil zum Personenbezug dynamischer IP-Adres- 
sen; Wöjtowicz/Cebulla 2017: 189£.). 

Bei der Anonymisierung sind Abwägungen zu treffen. Einerseits sollen Forscher/innen 
Daten vorhalten, um Replikationen und Sekundäranalysen zu ermöglichen, anderseits soll 
der Persönlichkeitsschutz der Befragten dadurch gestärkt werden, dass Daten nicht länger als 
benötigt gespeichert werden. Nicht mehr benötigte personenbezogene Merkmale, wie z.B. 
Adressangaben oder Telefonnummern, müssen gelöscht werden, sobald der Forschungs- 
zweck erreicht ist. 

Als problematisch ist prinzipiell jedes Zusatzwissen über Untersuchungspersonen anzu- 
sehen, über welches Dritte verfügen könnten, die auf die Daten zugreifen. Nach der oben 
genannten relativen Theorie und den Ausführungen in der DSGVO müssen Forscher/innen 
dieses Zusatzwissen nach allgemeinem Ermessen (Erwägungsgrund 26 DSGVO) momentan 
überschauen. Zum Zusatzwissen zählen die bei Dritten eventuell vorhandene Teilnah- 
mekenntnis und jede Möglichkeit, über eindeutige Angaben im Datensatz weitere Informa- 
tionen den Daten hinzuzufügen. Bei dieser möglichen Hinzufügung ist u.a. der Stand der 
Technik zu beachten, der Dritten zur Verfügung steht, um ggf. unrechtmäßig eine De-Ano- 
nymisierung durchzuführen. Allerdings ist dieses Konzept dynamisch, sodass für die prakti- 
sche Arbeit nur von anerkannten Regeln der Technik ausgegangen werden kann (Grund- 
lach/Weidenhammer 2018). 

Eine Anonymisierung wird u.a. durch Angaben aus Antworten zu offen gestellten Fragen, 
durch die Datenerhebung in speziellen Populationen (z.B. sogenannte Eliten) oder die Kom- 
binierbarkeit mit anderen Datenquellen erschwert: 


a) Offene Angaben in quantitativen Datensätzen und in Transkripten qualitativer Interviews sind immer 
mit dem Risiko verbunden, dass der Befragte sich zu seinen persönlichen oder sachlichen Verhält- 
nissen äußert und so zu seiner möglichen Re-Identifikation beitragen kann. Daher müssen diese sehr 
intensiv geprüft werden und führen zu einem beträchtlichen Arbeitsaufwand bei den die Anonymi- 
sierung durchführenden Stellen. 


10 Seit Ende Juli 2018 liegen alle überarbeiteten Landesdatenschutzgesetze vor. Acht von 16 Bundesländern 
haben ihre Gesetze um Definitionen von „Anonymität“ im Sinne „faktischer Anonymität“ ergänzt. Es sind dies 
Brandenburg, Hessen, Niedersachsen, Nordrhein-Westfalen, Sachsen, Sachsen-Anhalt, Schleswig-Holstein 
und Thüringen (Landesdatenschutzgesetze 2018). 
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b) Bei Datenerhebungen in speziellen Populationen sind bereits durch die Begrenzungen, die sich aus 
den Definitionen der Populationen ergeben, Anonymisierungsmaßnahmen notwendig. Ein Fall spe- 
zieller Populationen stellen Professoren/innen dar. In der Regel stehen deren Lebensläufe online zur 
Verfügung, inklusive Angaben z.B. zur Promotion oder zu persönlichen Lebensverhältnissen (ver- 
heiratet, Anzahl Kinder, Wohnort etc.). Enthält eine Studie etwa unter deutschen Archäologieprofes- 
soren/innen Angaben zum Jahr, in denen diese promoviert wurden, kann eine einfache Suchmaschi- 
nen-Anfrage bereits zur Identifikation der einzelnen Personen führen. 

c) Neben der Kombinierbarkeit von Merkmalen innerhalb eines Datensatzes kann die Verknüpfung von 
Daten einer Studie mit anderen Datenquellen zu einer Verschärfung der Problemlage führen. Dies 
kann selbst dann der Fall sein, wenn die eigentlichen Daten an sich ohne jegliches identifizierendes 
Material zu sein scheinen. Beispielsweise konnten Narayanan und Shmatikov (2008) anonymisierte 
Personen aus einem frei verfügbaren Datensatz des Online-Streaming-Dienstes Netflix mit hoher 
Wahrscheinlichkeit Nutzerprofilen des Filmbewertungsportals Internet Movie Database (IMDb) zu- 
ordnen. Hierdurch erhöhte sich das Risiko einer möglichen Re-Identifizierung. Das Beispiel zeigt, 
dass die Einhaltung des Datenschutzes nicht mehr von der erhebenden Stelle kontrolliert werden 
kann, wenn ein Weg gefunden wird, die publizierten Daten mit anderen, externen Daten zu verbin- 
den. Auf konkrete Maßnahmen der Anonymisierung gehen wir in Abschnitt 4.3 ein. 


Die Herausforderungen beim Umgang mit von Personen erhobenen Daten in der Forschung 
werden durch eine ganzheitliche Betrachtung der Situation gemildert. Ein wichtiger Teil die- 
ser ganzheitlichen Betrachtung ist die Bewertung des möglichen Risikos für die Untersu- 
chungspersonen. Hierbei werden die für eine Veröffentlichung der Daten notwendigen Maß- 
nahmen bestimmt und von der verarbeitenden Stelle wird das Risiko einer möglichen Re- 
Identifizierung bewertet. Geht man von einer faktischen Anonymität und einem hinnehmba- 
ren Restrisiko aus, sollte die Wahrscheinlichkeit des Eintretens einer Re-Identifizierung oder 
einer De-Anonymisierung vernachlässigbar sein. Für eine vollständige Abschätzung eignet 
sich z.B. der von Bieker et al. (2016) auf der Basis des Standard-Datenschutzmodells (vgl. 
SDM 2016) sowie der DSGVO erstellte Ablauf für eine Datenschutz-Folgenabschätzung 
(ausführlich auch Forum Privatheit 2016). 

Beispiele für einen sicheren Umgang mit Forschungsdaten, der nicht allein auf die Ano- 
nymisierung abzielt, sind Datenerhebungsprogramme wie etwa das SOEP oder das Projekt 
CILS4EU (s. Schaukasten 4.6). Im Fall des Sozio-oekonomischen Panels haben weder das 
Deutsche Institut für Wirtschaftsforschung (DIW) noch das Team des SOEP direkten Zugriff 
auf die Kontaktdaten der Befragten. Diese liegen nur dem Erhebungsinstitut vor. Ferner gel- 
ten für den Zugriff auf die Daten besondere vertragliche Regelungen (Frick et al. 2010). 


Schaukasten 4.6: Beispiel für Nutzungsbestimmungen ist die Studie Children of Immi-grants Longitudinal 
Survey in Four European Countries (CILS4EU) 


« Der Zugang zur Vollversion (http://dx.doi.org/10.4232/cils4eu.5353.3.3.0) ist nur nach expliziter Zu- 
stimmung des Datengebers in die Zwecke der Sekundärnutzung und nach Vertragsabschluss an 
einem technisch besonders umfangreich gesicherten Gastarbeitsrechner (Secure Data Center) 
möglich. 

« Der Zugang zu einer reduzierten Version (http://dx.doi.org/10.4232/cils4eu.5656.3.3.0) außerhalb 
von GESIS ist nur nach expliziter Zustimmung des Datengebers in die Zwecke der Sekundärnutzung 
und nach Vertragsabschluss möglich. Die Daten werden verschlüsselt zum Download freigeschaltet. 

« Der CILS4EU-Vertrag stellt einige besondere Anforderungen an die Nachnutzenden: 


« Bezüglich der Anonymität beispielsweise: Alle Versuche einer Re-Identifizierung von Stu- 
dienteilnehmer/innen sind zu unterlassen, keine Verknüpfung mit anderen Daten auf Individual- 
ebene, keine Darstellung von Einzelfällen (einzelne Studienteilnehmer/innen). 

« Bezüglich sonstiger Bedingungen beispielsweise: Bei allen Publikationen auf Grundlage von 
CILS4EU muss das Projekt referenziert werden, keine Weitergabe an Dritte, keine kommerzielle 
Nutzung. 


Quelle: Eigene Darstellung 
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Zusammenfassend lasst sich sagen, dass in der Aufbereitungs- und Analysephase die geplan- 
ten und notwendigen Maßnahmen zum Datenschutz auch sachgerecht umgesetzt werden soll- 
ten. Personenbezogene Merkmale in den Daten sollten getrennt von den Analysemerkmalen 
gespeichert werden. Je nach Grad des Risikos für den Grundrechtsschutz der Untersuchungs- 
personen treten informationsverändernde Maßnahmen wie die Pseudonymisierung und Ano- 
nymisierung hinzu. Der Grundrechtsschutz kann zudem durch Mittel wie den Zugriffsschutz 
verstärkt werden. Alle genannten Maßnahmen dienen dem Grundrechtsschutz der Untersu- 
chungspersonen bei der Veröffentlichung und Archivierung. Sie sollten vor der Datenerhe- 
bung geplant und ihnen sollte durch die Betroffenen über die informierte Einwilligung zuge- 
stimmt werden. 


4.2.3. Veröffentlichungs- oder Archivierungsphase 


„Welche Daten müssen gelöscht werden? “ (RatSWD 2016: 17) 


An dieser Stelle müssen wir zunächst eine Einschränkung machen. Wenn die Einverständ- 
niserklärung eine Nutzung nach Abschluss des Forschungsvorhabens ausschließt, dürfen 
Forschungsdaten nicht archiviert werden. Das gilt auch, wenn diese Daten nach rechtlichen 
Vorgaben pseudonymisiert oder anonymisiert wurden. Selbst anonyme Daten dürfen nicht 
verwendet werden, wenn die Einwilligung explizit eine Nutzung nach Projektende aus- 
schließt. Über die Einverständniserklärung wird erstens der Forschung als Zweck der Daten- 
nutzung zugestimmt und zweitens Untersuchungspersonen eine Wahrung ihrer Grundrechte 
durch Schutz ihrer Daten (z.B. durch Nutzung ohne Personenbezug) zugesichert (siehe oben). 

Archive für Forschungsdaten verfügen — neben ihrer Expertise bezüglich Anonymisie- 
rungsmaßnahmen — über eine Reihe weiterer Möglichkeiten, die zur Einhaltung der daten- 
schutzrechtlichen Vorgaben beitragen. Dazu zählen u.a. technische Zugangsbeschränkungen, 
Verpflichtungen über Nutzungsverträge/-bedingungen und kontrollierte Gastarbeitsrechner. 
Forscher/innen sollten sich frühzeitig mit dem Archiv ihrer Wahl in Verbindung setzen und 
mit den Ansprechpartner/innen dort das notwendige Schutzniveau für die einzureichenden 
Daten diskutieren. 


„Wie werden die Daten für die Nachnutzung zur Verfügung gestellt?“ (Ebd.) 


Der Rat für Sozial- und Wirtschaftsdaten (RatSWD) empfiehlt, Daten selbst dann in Reposi- 
torien zu sichern, wenn keine Verfügbarmachung für Sekundärstudien vorgesehen ist, bei- 
spielsweise weil keine Dokumentationsmaterialien erstellt wurden. Durch diese Sicherung 
wird zumindest gewährleistet, dass die Daten datenschutzkonform sowie sicher und langfris- 
tig lesbar vorgehalten werden (RatSWD 2016: 6). Die Archivierung in einem Repositorium 
oder Archiv hat weitere Vorteile, wenn die eingereichten Daten mit anderen Forscher/innen 
geteilt werden. 


„Welchen Beschränkungen unterliegt die Nachnutzung bzw. wer kann die Daten unter welchen Bedin- 
gungen nachnutzen? “ (Ebd.) 


Wenn Daten in einem Repositorium bzw. Archiv eingereicht werden sollen, ist mit den dort 
zuständigen Ansprechpartner/innen zu klären, unter welchen Nachnutzungsbedingungen und 
Zugangsbeschränkungen die Daten verfügbar sein sollen. Es muss etwa die Frage geklärt 
werden, wer über welchen Zugangsweg und unter welchen Einschränkungen die Daten nut- 
zen dürfen soll. Einen Einblick in mögliche Bedingungen für die Nachnutzung von Daten 
aus einem Archiv bietet die Benutzungsordnung des GESIS Datenarchivs (2018). 
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4.3 Anonymisierungs- und weitere Schutzverfahren 


Wie dargestellt, sollte bereits im Forschungsvorhaben mit Maßnahmen wie Datentrennung, 
Pseudonymisierung und Verschlüsselung gearbeitet werden. Ab wann von anonymisierten 
Daten gesprochen werden kann, ist im Einzelfall zu bestimmen (s. Abschnitt 4.2.2). 

Im Folgenden werden nur einige der gängigsten Anonymisierungsmaßnahmen in den So- 
zialwissenschaften dargestellt. Einzig auf die Eigenschaft k-anonymity soll abschließend 
noch einmal gesondert eingegangen werden. 


4.3.1 Verfahren der Pseudonymisierung und Anonymisierung 


Bei der Pseudonymisierung oder Anonymisierung werden alle Merkmale verändert, entfernt 
oder gelöscht, die Daten auf eine natürliche Person beziehbar machen. Hierbei ist zwar wei- 
terhin ein (reduzierter) Informationsgehalt für Analysen gegeben, Einzelperson können je- 
doch nicht mehr identifiziert werden. Eine Auflistung möglicher direkter und indirekter Iden- 
tifikationsmerkmale findet sich in Schaukasten 4.7. Neben dem Löschen der Daten bzw. gan- 
zer Variablen, das mehr oder weniger selbsterklärend ist, gibt es die Möglichkeit, Variablen- 
werte zu klassifizieren oder einzelne Werte zu recodieren. 


Schaukasten 4.7: Direkte und indirekte Identifizierungsmerkmale 
Direkte Identifizierungsmerkmale 


a) Namen 

b) Anschrift 

c) Telefonnummer 

d) Kfz-Kennzeichen (mögliche Identifizierung Fahrzeughalter) 

e) Personalausweisnummer 

f) Sozialversicherungsnummer 

g) E-Mail-Adresse (z.B. berufliche mit Vor- und/oder Nachnamen) 

h) feste IP-Adresse 

i) ein-eindeutige Berufsbezeichnung (z.B. Präsidentin, Rektorin, Direktorin etc. in Kombination mit 
Name Arbeitgeber) 


Indirekte Identifizierungsmerkmale 


j) Offene Berufsangabe (ggf. Name Unternehmen oder eindeutige Berufsangabe) 
k) Offene Angabe zu Schul- und Berufsbildung (ggf. Name der Bildungseinrichtung) 
I)  Karriereangaben im Lebensverlauf 

m) Geburtsland 

n) Staatsangehörigkeit 

o) Muttersprache 


p) Postleitzahl 

q) Kreiskennziffer 

r) Gemeindekennziffer 

s) Ortsnamen (auch Ortsnamen in der Dokumentation beachten) 

t) Stadtteilnamen 

u) Bundesland oder Regierungsbezirk in Kombination mit Gemeindegrößenklasse oder Boustedt-Re- 
gionen 


Quelle: Kinder-Kurlanda/Watteler (2015: 19) 


11 Hierzu zählen auch Geokoordinaten, die Kinder-Kurlanda und Watteler (2015) nicht erwähnen. 
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Die Anonymisierung von qualitativem Forschungsmaterial ist in den meisten Fallen (bei- 
spielsweise fiir Interviewtranskripte) deutlich aufwendiger und fiir Audio- und Videoaufnah- 
men zudem technisch anspruchsvoller. Dies sind entscheidende Griinde, warum qualitative 
Daten selten vollständig veröffentlicht und archiviert werden. Dass dies keine Ausschluss- 
gründe sein müssen und es geeignete Anonymisierungsmaßnahmen auch für die qualitative 
Forschung gibt, zeigen u.a. Meyermann und Porzelt (2014).'? 


Strategie 1: Aggregieren einzelner Werte/Kategorien 


Wenn einzelne Werte einer Variablen sehr selten vorkommen, insbesondere an den Rändern 
ihrer Verteilung, kann dies die Re-Identifizierung von Studienteilnehmer/innen ermöglichen. 
In diesem Fall ist es empfehlenswert, die problematischen Werte der Variable zu aggregieren 
(Ebel/Meyermann 2015: 7f). Beispielsweise können sehr kleine bzw. sehr große Werte in 
einer nach unten bzw. nach oben offenen Kategorie zusammengefasst werden (Top- bzw. 
Bottom-Coding). 


Schaukasten 4.8: Aggregieren einzelner Werte 
Informationen in Ursprüngliche Mögliches Datenschutzprob- Exemplarische Lösung 
Variable Kodierung lem 
Alter offene Angaben Seltene Werte an den Rän- Je nach Stichprobe: Top- 
dern der Verteilung (Extrema) Coding und/oder Bottom- 
Coding 
Einkommen offene Angaben Seltene Werte an den Rän- Je nach Stichprobe: Top- 
dern der Verteilung (Extrema) Coding und/oder Bottom- 
Coding 
Muttersprache offene Angaben Seltene Werte (Zusatzwissen/ Alle seltenen Werte zu ei- 
Teilnahmekenntnis) ner gemeinsamen Katego- 
rie 
umcodiert 


Quelle: Ebel/Meyermann (2015: 8) 


Es kann darüber hinaus sinnvoll sein, insbesondere bei herausgehobenen Populationen (z.B. 
Eliten), auf eine Mindestbesetzung von Zellen (des zu anonymisierenden Merkmals) zu ach- 
ten. Empfehlungen zur Mindestbesetzung können nicht generalisiert werden. In Schaukasten 
4.8 werden einige beispielhafte Recodierungen gezeigt. 


Strategie 2: Aggregieren aller Werte 


Die gesamte Variable sollte recodiert werden, wenn mehrere Werte problematisch erschei- 
nen, sofern dieser Aufwand geleistet werden kann und die recodierte Variable einen tatsäch- 
lichen Informationsgehalt besitzt (ebd.: 8). In Schaukasten 4.9 werden einige für sozialwis- 
senschaftliche Umfragen typische Variablen recodiert. 


12 Der Vollständigkeit halber sei hier auf die Maßnahmen im Bereich der statistical disclosure control verwiesen, 
welche vor allem im Bereich amtlicher Mikrodaten verwendet werden (vgl. die kurze Einführung in Bethlehem 
2009: 342-358). 
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Schaukasten 4.9: Aggregieren aller Werte 


Informationen in Variable Urspriingliche Kodierung Exemplarische Lösung 

Berufsangabe offene Angaben Kategorisierung der Angaben in (dreistellige) 
ISCO-Codes 

Berufsangabe vierstellige ISCO-Codes Kürzen auf dreistellige Angaben (Löschen 
der letzten Ziffer) 

Postleitzahl Postleitzahl Aggregieren in z.B. Bundesland oder BIK- 
Region 


Quelle: Ebel/Meyermann (2015: 8) 
Strategie 3: Löschen von Variablen 


Als dritte Strategie sollte das Löschen ganzer Variablen aus dem Datensatz ins Auge gefasst 
werden (ebd.). Da der Informationsverlust hierbei am größten ist, sollte das Löschen nur 
durchgeführt werden, wenn das Aggregieren einzelner Werte zu aufwendig ist oder aus sons- 
tigen Gründen — etwa wenn der Informationsgehalt der recodierten Variable den Aufwand 
nicht rechtfertigt — nicht geleistet werden kann oder soll (vgl. die Beispiele zu IP-Adressen 
und Regionalangaben in Schaukasten 4.10). 


Schaukasten 4.10: Löschen von Variablen 


Informationen Exemplarische Lösung 
kleinräumige Regionalangaben wie Postleit- Aggregieren in z.B. Bundesland oder BIK-Region u.U. zu 
zahl, aufwendig, daher die Variable löschen. 


Kreiskennziffern, Orts- oder Stadtteilnamen, 


(fixe) IP-Adressen Der Informationsgehalt lässt sich eventuell nicht erhalten 
beim Aggregieren der Werte, daher die Variable löschen. 


Quelle: Ebel/Meyermann (2015: 9) 


4.3.2 Exkurs: k-anonymity 


Die Eigenschaft k-anonymity wurde von Sweeney (2002) eingeführt. Ein Datensatz besitzt 
diese Eigenschaft, wenn ein Individuum, bezogen auf jede Kombination einer Auswahl von 
Variablen — Quasi-Identifier genannt — nicht von k-1 anderen Individuen unterschieden wer- 
den kann (ebd: 8ff.). Quasi-Identifier sind diejenigen Variablen, die zum einen mit größerer 
Wahrscheinlichkeit in externen Datenquellen vorkommen könnten und zum anderen spezi- 
fisch genug sind, dass bestimmte Kombinationen aller Variablen des Sets nur von relativ 
wenigen Individuen im Datensatz geteilt werden. 

k-anonymity dient dazu, dass sich keine Person eindeutig identifizieren lässt, wenn wei- 
tere, externe Informationen mit dem Datensatz verlinkt werden, da immer mindestens k-1 
identische Personen vorhanden sind. Dies stellt im Zeitalter von Big Data eine attraktive er- 
gänzende Vorsichtsmaßnahme zu traditionellen Anonymisierungsstrategien wie der Unter- 
drückung einzelner Werte (Höhne 2010: 25) dar, da die Existenz von verknüpfbaren externen 
Datenbeständen immer wahrscheinlicher wird (Sweeney 2002: 4). 

Das Vorgehen bei dieser Strategie ist eine Erweiterung der Aggregation bei einzelnen 
Variablen. Im Falle der k-anonymity werden individuelle Variablenausprägungen durch für 
k Fälle identische Ausprägungen ersetzt. Welcher Wert für k gewählt werden sollte, muss in 
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Abhängigkeit des Einzelfalls entschieden werden und kann nur soweit verallgemeinert wer- 
den, dass k in jedem Fall mindestens 3 sein sollte. 

Beispiel: In einer Elitenstudie wurden Angaben von Juniorprofessoren/innen an Univer- 
sitäten zu einem Fragebogen sowie Informationen zur Arbeitsstelle erfasst. Die Primärfor- 
scher gehen davon aus, dass Geschlecht, Zeitpunkt des Stellenantritts und Bundesland Quasi- 
Identifier sind. Angestrebt wird k-anonymity, mit k=3. D.h., keine Person im Datensatz darf 
sich bezogen auf die Quasi-Identifier von weniger als 2 weiteren unterscheiden. In Schau- 
kasten 4.11 sieht man, dass das Ziel der k-anonymity mit k=3 erreicht wird. 


Schaukasten 4.11: Beispiel für k-anonymity mit k=3 (Von den sieben dargestellten Variablen sind Geschlecht, 
Stellenantritt und Bundesland Quasi-Identifier.) 
Fall Geschlecht Stellenantritt Bundesland v1 v2 V3 
1 weiblich Sept. 2014 Niedersachsen 20 1 3600€ 
2 weiblich Sept. 2014 Niedersachsen 20 1 2100€ 
3 weiblich Sept. 2014 Niedersachsen 10 1 1800€ 
4 männlich Dez. 2015 Bayern 30 1 n/a 
5 männlich Dez. 2015 Bayern 40 1 5000€ 
6 männlich Dez. 2015 Bayern 20 1 1500€ 


Quelle: Eigene Darstellung 


4.3.3 Public und Scientific Use Files 


Unabhängig von der gewählten Anonymisierungsstrategie sollte auf eine konsistente und 
sorgfältige Arbeitsweise geachtet werden. Alle Anonymisierungsentscheidungen müssen in 
einer nachvollziehbaren Weise dokumentiert werden (beispielsweise im Codehandbuch). 
Sind die Verluste des Auswertungspotentials der Daten durch Anonymisierungsmaßnahmen 
sehr groß, kann und sollte überlegt werden, ob eine Aufteilung in einen öffentlich verfügba- 
ren, absolut anonymisierten Public Use File, und einen nur an einem Gastarbeitsrechner des 
Archivs bearbeitbaren Scientific Use File sinnvoll scheint (vgl. die Datenzugangsbedingun- 
gen auf der Webseite der Statistischen Ämter des Bundes und der Länder 2018): 


Daten in Public Use Files (PUF) sind normalerweise so weit anonymisiert, dass sie zu öffentlichen 
Zwecken zugänglich sind (vgl. Wende 2004: 338). Im Falle der Amtlichen Statistik wird sogar von 
absolut anonymisierten Mikrodaten gesprochen. 

Daten in Scientific Use Files (SUF) sind so weit anonymisiert, dass sie zu Forschungszwecken ver- 
wendet werden dürfen. Sie bieten im Vergleich zu den On-Site-Zugangswegen ein geringeres Ana- 
lysepotential, sind jedoch so konzipiert, dass sie sich für einen großen Teil der wissenschaftlichen 
Forschungsvorhaben eignen. 


4.3.4 Zugangs- und Zugriffsbeschränkungen 


Als ergänzende (nicht ersetzende) Maßnahme kann in der Phase der Veröffentlichung und 
Archivierung der Zugriff auf oder sogar der Zugang zu Daten beschränkt werden. Der Zugriff 
kann technisch nur registrierten Personen ermöglicht werden, die einer Datennutzungsver- 
einbarung zustimmen. Diese sollte umfassen, dass ausschließlich aggregierte Werte publi- 
ziert werden, die keinen Rückschluss aufeinzelne Studienteilnehmer/innen ermöglichen. Des 
Weiteren beschränkt sie den Nutzerkreis in der Regel auf Wissenschaftler/innen. Außerdem 
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werden ein Verbot der Weitergabe der Daten an Dritte und ein Datum zur Löschung der 
Daten aufgenommen. 

Eine Beschränkung des Zugangs erfolgt in manchen Instituten über eine On-Site-Nutzung 
der Daten. Das bedeutet, Wissenschaftler/innen können ausschließlich vor Ort an einem 
Gastarbeitsrechner mit den Daten arbeiten. Beispielsweise wird der Mikrozensus in einer 
anonymisierten Version zur On-Site-Nutzung zur Verfügung gestellt (vgl. Zugangsbedin- 
gungen der Forschungsdatenzentren auf www.forschungsdatenzentrum.de). Dieses Beispiel 
für einen Scientific Use File enthält noch sehr detaillierte Informationen. Ein ähnliches An- 
gebot macht GESIS über das Secure Data Center. Auch in dieser Arbeitsumgebung können 
Gastwissenschaftler/innen Scientific Use Files mit allen gängigen Statistikprogrammen ana- 
lysieren. Der Datenzugriff ist technisch so gesichert, dass es unmöglich ist, die Daten an 
andere Stellen zu übermitteln oder auf Datenträger zu kopieren. Der Output der statistischen 
Auswertungen wird in beiden Einrichtungen von Mitarbeiter/innen geprüft und, falls keine 
kritischen Informationen enthalten sind, freigegeben, wie in Kapitel 7.4.4 am Beispiel des 
Datenarchivs für Sozialwissenschaften der GESIS — Leibniz-Institut für Sozialwissenschaf- 
ten näher ausgeführt. 

On-Site-Zugang kann als Maßnahme an sich bereits als ein Schritt in Richtung faktischer 
Anonymisierung gewertet werden, da ein erheblicher Aufwand für die Anreise einberechnet 
und der Nutzerkreis kontrolliert sowie auf Wissenschaftler/innen begrenzt werden kann 
(Höhne 2010: 11). 


4.3.5 Zwei Fallbeispiele zu Datenschutzkonzepten 


Die folgenden Skizzierungen von Datenschutzkonzepten zweier deutscher Studien zeigen 
exemplarisch, wie unter verschiedenen Ausgangsbedingungen mit datenschutzrechtlichen 
Vorgaben umgegangen werden kann (weitere Beispiele finden sich bei Kinder-Kur- 
landa/Watteler 2015). 


Beispiel 1: ALLBUS Datenschutzkonzept 


Die seit 1980 alle zwei Jahre erhobene Allgemeine Bevölkerungsumfrage der Sozialwissen- 
schaften (ALLBUS) ist eine repräsentative Querschnittsbefragung zu Einstellungen, Verhal- 
tensweisen und zur Sozialstruktur der deutschen Wohnbevölkerung (FDZ ALLBUS 2017). 
Sie umfasst umfangreiche Informationen zu jedem Befragten, u.a. kleinteilige geographische 
Informationen sowie Berufsangaben (vierstellige ISCO-Codes). 

ALLBUS-Studien werden umfangreiche regionale Kontextdaten zugespielt, u.a. das 
Bundesland der Befragung und die politische Gemeindegrößenklasse des Wohnorts sowie 
BIK-Regionen (zu BIK s. Behrens/Wiese 2013). Aus Datenschutzgründen können nicht alle 
Informationen frei verfügbar gemacht werden. Einige Informationen, beispielsweise die 
exakte Wohnortgröße, werden nicht oder nur recodiert angeboten. Andere kleinteilige geo- 
graphische Angaben (Regierungsbezirk) werden nicht in den jedem Wissenschaftler bzw. 
jeder Wissenschaftlerin zur Verfügung stehenden Standarddatensätzen veröffentlicht. Sie 
sind ausschließlich bei begründetem Forschungsinteresse und innerhalb vertraglicher Nut- 
zungsbedingungen im GESIS Secure Data Center nutzbar (GESIS 2017; Wasmer et al. 2014: 
33). 
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Beispiel 2: Studierendenstudie MESARAS 


Die zweite Studie ist MESARAS 2013: Mobility, Expectations, Self-Assessment and Risk 
Attitude of Students. Sie ist ein Beispiel dafür, dass Teilnahmekenntnis und Zusatzwissen 
Dritter, insbesondere in Verbindung mit kleinräumigen geographischen Angaben, beim Da- 
tenschutz mitbedacht werden müssen. Ihre Darstellung zeigt darüber hinaus, dass auch Ein- 
zelforscher/innen in der Lage sind, Datenbestände wirksam zu schützen. 

Für diese Studie wurden 2013 an sieben Universitäten in Deutschland Studierende be- 
fragt. Ziel der Befragung war es, den Zusammenhang zwischen Mobilitätsentscheidungen 
von Studenten und Studentinnen und verschiedenen Determinanten, wie individuellen Ein- 
stellungen und Persönlichkeitsmerkmalen, zu untersuchen. Zu diesem Zweck wurden um- 
fangreiche und kleinteilige geographische Angaben erfasst. 

Bei kleinteiligen geographischen Angaben besteht die Gefahr, dass diese in Kombination 
mit anderen, ansonsten nicht-personenbeziehbaren Merkmalen das Risiko der De-Anonymi- 
sierung erhöhen. Im vorliegenden Fall kommt hinzu, dass davon ausgegangen werden 
musste, dass Student/innen sowie Lehrkräfte Kenntnis über die Teilnahme der Befragten hat- 
ten. Dadurch wären Personen in der Lage gewesen, auch in formal anonymisierten Daten 
nach ihren Bekannten und Kommilitonen/innen zu suchen. Wäre beispielsweise die Staats- 
angehörigkeit differenziert erfasst und käme nur eine Person afghanischer Herkunft in den 
Daten vor, könnten ihre Kommilitonen/innen und Lehrkräfte sie über diese Information im 
Datensatz erkennen und anschließend alle sonstigen Angaben auf sie beziehen. 

Der Primärforscher hat die Daten zum Schutz der Betroffenen formal anonymisiert und 
anschließend in zwei Versionen eingeteilt. Ein Public Use File (Weisser 2016a) wurde in- 
haltlich stark verändert und faktisch anonymisiert. Es wurden vor allem geographische An- 
gaben, Nennungen der Universitäten, Angaben zu Ausbildung, Auslandsaufenthalten und 
Studiengang entfernt oder kategorisiert. Das Analysepotential ist vermindert. Da allerdings 
weiterhin die Distanzen zwischen den anonymisierten Studien- und Wohnorten (geographi- 
sche Distanzen in Kilometern zwischen den Schwerpunkten von Flächen) enthalten sind, ist 
eine Auswertung bezüglich des ursprünglichen Forschungszwecks weiterhin möglich. 

Die zweite Version ist ein Scientific Use File (Weisser 2016b), der weitestgehend einem 
weniger stark anonymisierten Datensatz entspricht und nur über das GESIS Secure Data Cen- 
ter zugänglich ist. Auf diese Weise wird sichergestellt, dass der Scientific Use File nicht an 
Dritte weitergegeben wird und ausschließlich Wissenschaftler/innen Zugang erhalten. Es ist 
hier lediglich eine Ergänzung von Kontextdaten über administrative Einheiten, wie Bundes- 
länder oder Kreise, sowie teilweise über Georeferenzen möglich, nicht jedoch eine Verknüp- 
fung mit anderen Datenquellen auf Individualebene. D.h., es kann nicht versucht werden, 
über einen Abgleich mit einem anderen Datensatz identische Befragte zu finden und ggf. zu 
identifizieren. Nutzer/innen unterschreiben einen Vertrag und die Einhaltung der Nutzungs- 
bedingungen wird von Mitarbeitern/innen vor Ort kontrolliert. Diese Version ist durch die 
Kombination von technischen und Anonymisierungsmaßnahmen ebenfalls faktisch anonym. 


4.4 Häufige Fehler 


Datenschutz und ethisches Forschen sind komplexe Themengebiete. Forscher/innen fühlen 
sich oftmals nicht ausreichend informiert in diesen Bereichen. Aus Unkenntnis oder Sorge 
heraus, den einzelnen Bestimmungen nicht gerecht zu werden, geschieht es in der Praxis 
immer wieder, dass Forscher/innen entweder noch striktere Anforderungen an den eigenen 
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Umgang mit den erhobenen Daten stellen, als dies vom Gesetzgeber verlangt wird, oder 
gleich gänzlich auf jede datenschutzrechtliche Planung verzichten. 

Im Folgenden werden im Archivkontext häufig beobachtbare Probleme dargestellt. Es 
wird gezeigt, wie diese Situationen sowohl in Einklang mit datenschutzrechtlichen Bestim- 
mungen als auch den Bedürfnissen der Forschungspraxis gebracht werden können. 


4.4.1  Untätigkeit aus Unsicherheit und überzogene selbstauferlegte Einschränkungen 


Aus Unsicherheit aufgrund der Komplexität der datenschutzrechtlichen Bestimmungen 
und/oder Unwissen über diese verzichten Forscher/innen teilweise unbegründet auf weitere 
Forschung mit und Archivierung von erhobenen Daten. (Anonyme) Daten werden dann bei- 
spielsweise unmittelbar nach Erreichung des Projektziels gelöscht, obwohl dies nicht durch 
die Gesetze oder die Einwilligungserklärung verlangt wird. Oder die Projektleiter/innen neh- 
men erst gar keinen Kontakt mit Experten in ihren Hochschulen oder in datenhaltenden Ein- 
richtungen auf und verzichten auf die Vorteile des Data Sharing (vgl. Kapitel 7). 

Insbesondere bei Studien mit kleinen Grundgesamtheiten, Elitenstudien und qualitativem 
Forschungsmaterial sind Forscher/innen schnell geneigt, die Möglichkeit des Data Sharing 
bzw. der Archivierung auszuschließen, um Studienteilnehmer/innen vermeintlich besonders 
gewissenhaft zu schützen. Stattdessen werden alle Daten nach Abschluss des eigenen Pro- 
jekts gelöscht oder ‚verschwinden‘ auf persönlichen Datenträgern. 

Der beste Umgang mit der Komplexität von datenschutzrechtlichen Bestimmungen ist: 


a) Einschlägige sozialwissenschaftliche Ratgeber lesen, beispielsweise die Handreichung Datenschutz 
(RatSWD 2017) oder das hier vorliegende Kapitel, 

b) die Erstellung eines Datenmanagementplans bei der Planung des Forschungsprojektes (s. Kapitel 3), 

c) ggf. Absprachen bzgl. des Vorhabens mit dem Datenschutzbeauftragten treffen und die rechtzeitige 
Kontaktaufnahme mit einem Archiv. 


4.4.2. Unzureichende Planung des Forschungsdatenmanagements 


Das Einhalten des Datenschutzes spielt in jeder Phase des Forschungszyklus eine Rolle. Fin- 
den in der Design- und Erhebungsphase keine oder nur unzureichende Überlegungen zum 
Forschungsdatenmanagement und insbesondere zum Umgang mit personenbezogenen/-be- 
ziehbaren Daten statt, ergeben sich vielfältige Probleme in nachfolgenden Phasen. 

Beispielsweise ist in vielen Projekten nicht vorab festgehalten worden, ob personenbe- 
ziehbare Daten tatsächlich erhoben werden müssen und ob sie zur Erreichung des Projekt- 
ziels notwendig sind. Hier sollte das oben beschriebene Prinzip der Datenminimierung be- 
achtet werden. Wenn Daten im Projekt selbst erhoben werden sollen, sind folgende Fragen 
vorausschauend zu klären: Wann können sie gelöscht oder anonymisiert/pseudonymisiert 
werden, ohne das Erreichen des Projektziels zu gefährden? Müssen Studienteilnehmer/innen 
unter Umständen zu einem späteren Zeitpunkt erneut kontaktiert werden (nächste Welle in 
einer Panelstudie, Nachfolgeprojekt etc.)? 

Die vielleicht schwerwiegendste Konsequenz hieraus ist die dann erfolgende mangelhafte 
Ausgestaltung der Einwilligungserklärungen. Die Bestimmungen in Einwilligungserklärun- 
gen dürfen nicht übergangen werden und Einwilligungen können nur unter großen Schwie- 
rigkeiten nachträglich erneut eingeholt werden. Ist beispielsweise zugesagt worden, alle Kon- 
taktdaten zu einem bestimmten Zeitpunkt zu löschen, besteht keine Möglichkeit, diese Daten 
länger aufzubewahren, außer die Befragten werden erneut um Erlaubnis gebeten. 
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Wenn Einwilligungserklärungen nicht spezifizieren, wie Erhebung und Verarbeitung von 
personenbezogenen Daten erfolgen sollen, ist anschließend unklar, unter welchen Bedingun- 
gen die Datennutzung nach Abschluss des Projekts (Nachfolgeprojekt, Replikationsstudie, 
Datenverwertung durch den/die Primärforscher/in in einem anderen Kontext) möglich ist. 
Erfreulicherweise ist das Erstellen von Datenmanagementplänen immer häufiger eine Vo- 
raussetzung für die Förderung von Projekten. 


4.4.3. Ex-post-Anonymisierung 


Ein ähnliches Problem entsteht, wenn die Notwendigkeit der Anonymisierung von Daten erst 
im Nachhinein bedacht wird (Ex-post-Anonymisierung). In der Praxis stellt sich vielleicht 
heraus, dass zum einen die detaillierten Angaben in der Originalvariable gar nicht erst zur 
Beantwortung der Forschungsfragen benötigt wurden und der Aufwand der (nachträglichen) 
Anonymisierung somit überflüssig war. Zum anderen erweist sich die nachträgliche Anony- 
misierung in bestimmten Fällen (z.B. Datensätze mit inhaltlich detaillierten Variablen) als 
besonders zeitraubend und schwierig. 

Die nachträgliche Anonymisierung kann zu Fehlern in den Daten führen. Der/die Daten- 
verarbeitende kann die Daten ungewollt manipulieren und beispielweise die Werte falsch 
recodieren. Idealerweise werden im Datenmanagementplan die Archivierung und das Data 
Sharing mitbedacht und alle Variablen anhand dieser Überlegungen so erhoben, dass entwe- 
der keine nachträgliche Anonymisierung notwendig ist oder diese möglichst einfach und feh- 
lerfrei erfolgen kann. 


4.4.4 Pseudonyme aus personenbezogenen Angaben zusammensetzen 


Manchmal werden Pseudonyme aus Teilnehmer/innen-Informationen zusammengesetzt, ins- 
besondere wenn sich Personen selbst in Studien zu einem späteren Zeitpunkt identifizieren 
sollen, z.B. in der Befragung der nächsten Welle einer Panelstudie. Häufig gibt es in solchen 
Konstellationen eine Anleitung für die Teilnehmer/innen, die diese bittet, sich das eigene 
Pseudonym beispielsweise aus den ersten zwei Buchstaben des väterlichen Vornamens, den 
ersten zwei Buchstaben des mütterlichen Vornamens und dem eigenen Geburtsjahr zusam- 
menzusetzen. Manchmal werden auch eindeutige Identifikationsmittel aus anderen Kontex- 
ten genutzt, beispielsweise die Matrikelnummer von Studierenden. Diese Pseudonyme haben 
den Vorteil, dass sie einfach zu merken sind bzw. bei der nächsten Gelegenheit ohne Schwie- 
rigkeiten erneut konstruiert werden können. 

Probleme bereiten jedoch seltene Kombinationen in Verbindung mit Teilnahmekenntnis 
sowie Personenbezug dieser Pseudonyme. Wurden beispielsweise Studierende gebeten, ein 
Pseudonym unter Verwendung der Vornamen ihrer Eltern zu bilden, dann lässt sich über 
einen ausgeprägten Vornamen ggf. auf einen Migrationshintergrund der/des Studierenden 
schließen. Alle Personen mit Teilnahmekenntnis, möglicherweise also Lehrkräfte, Kommi- 
liton/innen und Eltern, die Zugriff auf die ausgefüllten Fragebögen und/oder Datensätze er- 
halten, könnten die/der Studierende re-identifizieren. Personen ohne Kenntnisse der Teilneh- 
mer/innen hätten immerhin einen zusätzlichen Informationsgewinn (Migrationshintergrund). 

Eine weitere Schwierigkeit ist, dass durch das Pseudonym die Bestimmbarkeit der Be- 
troffenen verhindert werden soll (vgl. Art. 4 Abs. 5 DSGVO). Das gelingt nicht, wenn das 
Pseudonym oder ein Teil davon selbst aus personenbezogenen Daten generiert wurde. Daher 
eignen sich beispielsweise die Sozialversicherungs-, Telefon- und Matrikelnummer sowie 
die E-Mail-Adresse nicht als Pseudonym. 
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4.5 Zusammenfassung 


Sozialwissenschaftler/innen dürfen für Forschungszwecke mit personenbezogenen Daten ar- 
beiten. Erheben sie diese selbst, müssen Untersuchungspersonen in aller Regel informiert in 
eine Teilnahme am Forschungsvorhaben zustimmen. Wissenschaftler/innen haben im Laufe 
ihrer Vorhaben sowie bei der eventuellen Veröffentlichung oder Archivierung auf den Schutz 
der Untersuchungspersonen zu achten. Hierfür bieten sich Maßnahmen wie die Datentren- 
nung, die Verschlüsselung von Datenbeständen, die Pseudonymisierung oder die Anonymi- 
sierung der Daten an. Ein Forschungsdatenmanagementplan, der die Risiken der erhobenen 
Daten sowie Maßnahmen für den Schutz der Personen umfasst, ist ein wertvoller Leitfaden 
u.a. für das technische Management hinter der Forschungsarbeit. Fachverbände, Ethikkom- 
missionen und Datenarchive bzw. Forschungsdatenzentren unterstützen Forscher/innen beim 
datenschutzkonformen Management und eröffnen Möglichkeiten der Nachnutzung von Da- 
ten im Zusammenspiel mit informationsreduzierenden Verfahren wie der Anonymisierung. 
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5. Dateiorganisation in empirischen Forschungsprojekten 


Jonas Recker und Evelyn Brislinger 


Forschungsdaten bilden die Grundlage empirischer Forschungsprojekte in den Sozialwissen- 
schaften und stehen damit im Fokus der Aufmerksamkeit der Wissenschaftlerinnen und Wis- 
senschaftler. Jedoch entstehen in Projekten neben erhobenen Forschungsdaten typischer- 
weise große Mengen an weiteren Dokumenten, die im Rahmen des Forschungsdatenmana- 
gements Beachtung finden sollten. Hierzu gehören einerseits Dokumente wie Besprechungs- 
protokolle oder E-Mail-Kommunikationen, die den Projektverlauf und die Projektorganisa- 
tion dokumentieren und so z.B. getroffene Entscheidungen oder die Aufgabenverteilungen 
und Verantwortlichkeiten nachvollziehbar machen. Andererseits fallen aber auch Materialien 
an, die dazu geeignet sind, Auskunft über Entstehung, Aufbereitung, Inhalt und Qualität der 
erhobenen oder genutzten Daten zu geben — z.B. Informationen zur Entstehung des Erhe- 
bungsinstruments, Paradaten über die Erhebungssituation, Syntaxdateien und Reports über 
die Datenaufbereitung. Diese Informationen tragen wesentlich dazu bei, den Forschungspro- 
zess insgesamt nachvollziehbar zu machen. Es entsteht also im Projektverlauf eine Informa- 
tionssammlung, die nicht nur im aktuellen Projektkontext, sondern auch darüber hinaus von 
Bedeutung ist. Zum Beispiel kann sie für die Primärforschenden eine wichtige Informations- 
quelle für nachfolgende Erhebungswellen darstellen. Aber auch für eine Nutzung der Daten 
durch Dritte zu Replikationszwecken oder zur Beantwortung neuer Forschungsfragen sind 
Teile dieser Informationssammlung unabdingbar, da sie Transparenz über den Forschungs- 
prozess und insbesondere die Entstehung und Aufbereitung der Daten herstellen. 

Der Großteil dieser bis zum Projektende entstehenden Informationen durchläuft eine 
Vielzahl von Bearbeitungsschritten, die z.T. durch unterschiedliche Personen vorgenommen 
werden. So liegen Daten und Dokumente am Ende eines Projekts oft in mehreren Aufberei- 
tungsstufen und Versionen vor. Ein Projektteam steht damit vor der Herausforderung, diese 
heterogenen Informationen so zu organisieren und bereitzustellen, dass sie für ihre jeweiligen 
Adressatinnen und Adressaten leicht auffindbar und zugreifbar sind. Gerade in kollaborati- 
ven Forschungsprojekten kann es schwierig sein, sicherzustellen, dass Informationen einfach 
identifizierbar und auffindbar sind, dass sie nachfolgende Arbeitsschritte zeitnah erreichen, 
dass sie nicht irrtümlich gelöscht oder überschrieben werden, aus Back-up-Routinen heraus- 
fallen oder aus technischen Gründen verloren gehen. Damit steigen mit der Komplexität des 
Projektworkflows und der Anzahl der interagierenden Beteiligten auch die Anforderungen 
an die Strukturierung der Informationen und die Organisation des Informationsflusses (vgl. 
Macias/Petrakos 2006: 4). Folgen diese nicht verbindlichen, im Projekt abgestimmten Leit- 
linien, führt dies häufig dazu, dass im Laufe der Arbeit immer wieder ad hoc Entscheidungen 
über die Organisation von Dateien getroffen werden, die nicht für alle Beteiligten transparent 
und nachvollziehbar sind und daher nicht selten zu Informationsverlusten führen. 

Dies zu vermeiden, ist Ziel eines systematischen Vorgehens bei der Organisation von 
Informationen (in Form von Dateien) und von Informationsflüssen in einem empirischen 
Forschungsprojekt. Ein solches Vorgehen trägt dazu bei, die Auffindbarkeit von Informatio- 
nen zu verbessern und die Gefahr eines Verlustes von Daten oder relevanten Kontextinfor- 
mationen zu minimieren. Darüber hinaus leisten transparente und gut strukturierte Arbeits- 
und Kommunikationsprozesse einen wichtigen Beitrag zur Erhöhung der Datenqualität: Sie 
verbessern die Zusammenarbeit der Beteiligten und helfen sicherzustellen, dass die erforder- 
lichen Informationen zur richtigen Zeit und an der richtigen Stelle auffindbar und zugreifbar 
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sind. Am ehesten kann dies erreicht werden, wenn sich die Organisation von Dateien unmit- 
telbar an den im Projekt definierten Arbeitsprozessen und Informationsflüssen orientiert und 
diese abbildet. 

Die Grenzen zwischen genuinen Forschungsaktivitäten, Maßnahmen des Projektmanage- 
ments und des Datenmanagements verlaufen demzufolge teilweise fließend und eine eindeu- 
tige Zuordnung von Aktivitäten zu einem der drei Bereiche ist nicht immer möglich. Im Fol- 
genden soll das Thema Dateiorganisation und Strukturierung von Informationen daher aus 
zwei Blickwinkeln betrachtet werden: 


Auf der Prozessebene stellt sich die Frage, wie Informationsflüsse über den gesamten Projektverlauf 
so ausgestaltet werden können, dass Informationen (z.B. Daten, Dokumentationen, Prozessinforma- 
tionen) sicher dort verfügbar sind, wo sie benötigt werden. Dies erfordert zum einen das Wissen 
darüber, welche Daten, Dokumentationen sowie Prozessinformationen im Projektverlauf entstehen 
und von wem sie wann und in welcher Form genutzt bzw. weiter bearbeitet werden. Sollen die Pro- 
jektergebnisse Dritten zur Nachnutzung zur Verfügung gestellt werden, erfordert es zum anderen die 
Verknüpfung der Forschungsdaten mit allen Kontextinformationen, die für das Verständnis und die 
Nutzbarkeit der Daten über die Projektlaufzeit hinaus von Bedeutung sind. 

Auf der Dateiebene gilt es im Rahmen des Forschungsdatenmanagements Organisationsprinzipien 
zu finden, mit Hilfe derer die im Projekt anfallenden Informationen sinnvoll geordnet werden kön- 
nen — sei es in einer lokalen oder webbasierten Verzeichnisstruktur oder auch in einer kollaborativen 
Arbeitsumgebung. 


Vor allem in Forschungsprojekten mit regional verteilten Partnern werden zunehmend On- 
lineportale genutzt, die einen geschützten virtuellen Arbeitsraum für das Daten- und Projekt- 
management sowie die Kommunikation und den Informationstransfer zwischen den beteilig- 
ten Forscherinnen und Forschern bieten. Die im Folgenden vorgestellten Empfehlungen zur 
Organisation von Dateien und Informationsflüssen lassen sich sowohl in verzeichnisbasier- 
ten Strukturen als auch in Online-Portalen umsetzen. 

Im Abschnitt 5.1 soll zunächst aufgezeigt werden, wie Modelle, die den Lebenszyklus 
von Forschungsdaten beschreiben, genutzt werden können, um die im Projekt anfallenden 
Informationen auf der Datei- und der Prozessebene zu strukturieren. Diese theoretischen 
Überlegungen werden anschließend mit Hilfe eines Beispielszenarios konkretisiert (5.2). Er- 
läuterungen und Hinweise zu allgemeinen Maßnahmen der Dateiorganisation — von der Da- 
teibenennung über die Versionskontrolle bis hin zu Zugangsrechten und Back-up-Strate- 
gien — schließen das Kapitel ab (5.3). 


5.1 Lebenszyklusmodelle für die Projekt- und Dateiorganisation 


Wie oben dargestellt, erfordert das sinnvolle Strukturieren der im Projektverlauf entstehen- 
den Informationen eine detaillierte Planung des Forschungsprozesses. Dies beinhaltet zum 
einen die Beschreibung der auszuführenden Aufgaben, die Festlegung der verantwortlichen 
Projektbeteiligten sowie die Definition der erwarteten Outputs. Zum anderen müssen die 
Wege der Informationen im Projektverlauf festgelegt und hierbei die Beziehungen zwischen 
den Informationen berücksichtigt werden. Die Aktualisierung oder Korrektur einer Informa- 
tion zieht sehr häufig Veränderungen in den Daten und Dokumentationen verknüpfter Pro- 
jektphasen nach sich und erfordert einen guten Überblick über den Projektworkflow. 
Modelle, die den Lebenszyklus von Forschungsdaten über den gesamten Forschungspro- 
zess hinweg (und auch darüber hinaus) abbilden, sind hierbei ein hilfreiches Werkzeug. Sie 
lassen sich an die Bedürfnisse kleiner wie großer Projekte anpassen und ermöglichen eine 
detaillierte Strukturierung des Forschungsprozesses in einzelne Phasen, Workflows und 
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unmittelbare Arbeitsschritte. Mit Hilfe solcher Lebenszyklusmodelle lässt sich auch darstel- 
len, welche Daten und Informationen in einer Projektphase erforderlich sind, neu produziert 
oder weiter bearbeitet werden bzw. an nachfolgende Phasen transferiert werden müssen. Sie 
bilden damit nicht nur einen geeigneten Rahmen für die Planung und Organisation der Kom- 
munikation und Zusammenarbeit im Projektverlauf (Prozessebene), sondern hierauf aufbau- 
end auch für die unmittelbare Organisation der Daten und Dokumentationen (Dateiebene). 
Projektergebnisse können so in strukturierter Weise abgelegt werden. 

Es existiert eine Vielzahl verschiedener Lebenszyklusmodelle, die je nach Projekterfor- 
dernissen als Vorlage genutzt werden können. Sie beschreiben einfache bis sehr komplexe 
Projektworkflows und können unterschiedliche Ziele in den Fokus stellen - z.B. die Publi- 
kation von Projektergebnissen oder die Übergabe von Daten und Dokumentationen an ein 
Datenarchiv (vgl. Ball 2012)- oder sind auf bestimmte Studientypen abgestimmt, z.B. 
Längsschnittstudien oder Kulturvergleiche (vgl. Barkow et al. 2013; Survey Research Center 
2016).! So bezieht das Lebenszyklusmodell der Data Documentation Initiative (DDI) die Ar- 
chivierung, Dissemination und Nachnutzung von Forschungsdaten mit ein (vgl. Kapitel 2.2). 

Das Survey Lifecycle Model (SLM) der Cross-Cultural Survey Guidelines (CCSG) defi- 
niert indessen sehr detailliert die Phasen, die empirische, international oder kulturell verglei- 
chende Forschungsprojekte üblicherweise durchlaufen (vgl. Survey Research Center 2016; 
vgl. Schaukasten 5.1 für eine Übersicht der Phasen). Die Guidelines erläutern für die einzel- 
nen Phasen die Arbeitsschritte einschließlich der Maßnahmen zur Sicherung der Datenqua- 
lität, benennen Verantwortlichkeiten und geben einen Überblick über die entstehenden Daten 
und Metadaten. Vergleichbar zum DDI-Modell schließt das Modell auch die Veröffentli- 
chung und Nachnutzung der erhobenen Daten mit ein. Es erlaubt damit, die Nutzung der 
Daten und Metadaten sowie der Dokumentation für die Replikation und die sekundäranaly- 
tische Nutzung durch Dritte frühzeitig in der Projektplanung zu berücksichtigen. 


Schaukasten 5.1: Phasen des CCSG Survey Lifecycle Modells 

1. Study Design and Organizational Structure 9. Pretesting 

2. Study Management 10. Interviewer Recruitment, Selection, and 
Training 

3. Tenders, Bids, & Contracts 11. Data Collection 

4. Sample Design 12. Paradata and Other Auxiliary Data 

5. Questionnaire Design 13. Data Harmonization 

6. Instrument Technical Design 14. Data Processing & Statistical Adjustment 

7. Translation 15. Data Dissemination 

8. Adaptation 


Quelle: Survey Research Center (2016) 


Bei der Organisation von Dateien und Dokumenten und der Strukturierung von Kommuni- 
kationsprozessen im Projekt anhand eines Lebenszyklusmodells kann wie folgt vorgegangen 
werden: 


1. Ausgehend von der Art, Zielstellung und Komplexität des Forschungsprozesses werden die erforder- 
lichen Phasen zu einem projektspezifischen Lebenszyklusmodell kombiniert. Zu berücksichtigende 
Faktoren können hierbei sein: 


1 Ein Überblick über verschiedene Lebenszyklusmodelle findet sich bei Ball (2012). 
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a) Art des Projektes: Handelt es sich um ein Forschungsprojekt, das eine Datenerhebung plant (vgl. 
dazu Kapitel 3), oder werden bereits bestehende Daten nachgenutzt, etwa im Rahmen von Se- 
kundäranalysen, wie in Kapitel 8 beschrieben? 

b) Zielstellung: Werden die Daten ausschließlich für die eigene Verwendung oder auch für die 
Nachnutzung durch Dritte aufbereitet, wie im Zusammenhang mit dem Thema Data Sharing in 
Kapitel 7 diskutiert? 

c) Komplexität: Handelt es sich beispielsweise um ein nationales Projekt einer/eines einzelnen For- 
schenden oder um eine multinationale Studie, in der regional verteilte Projektpartner zusammen- 
arbeiten, wie im Kontext der Datenaufbereitung und Dokumentation in Kapitel 6 beleuchtet 
wird? 

d) Art der Datenquellen: Geht es z.B. um Geodaten, die mit Umfragedaten verbunden werden sol- 
len, bzw. Forschungsdaten, die aus Social Media gewonnenen werden, wie in den Kapiteln 11 
und 12 thematisiert? 

2. Für den entstehenden Projektworkflow werden die konkreten Arbeitsschritte und Prozesse beschrie- 
ben sowie die Beteiligten, ihre Rollen und ihre Verantwortlichkeiten benannt. 

3. Darauf aufbauend wird der erforderliche Informationstransfer zwischen den Phasen aufgeführt und 
die Interaktion der Beteiligten definiert: Welche Daten und Informationen werden aus vorausgehen- 
den Phasen benötigt, welche werden neu produziert und welche müssen an nachfolgende Projektpha- 
sen oder Arbeitsschritte übergeben werden? Damit kann dieser Schritt auch die Selektion von Infor- 
mationen und Materialien beinhalten, die am Ende des Projekts an ein Datenarchiv übergeben werden 
müssen. 

4. Schließlich werden die Erfordernisse in praktische Strategien und Maßnahmen zur Organisation und 
Strukturierung der Dateien im Projektverlauf umgesetzt, um Transparenz über die verfügbaren Daten 
und Informationen herzustellen, einen einfachen Zugang zu ihnen zu garantieren und den Informati- 
onsfluss im Projekt zu befördern. 


Im nächsten Abschnitt soll anhand von Beispielen dargestellt werden, wie sich auf der 
Grundlage eines projektspezifischen Lebenszyklusmodells konkrete Workflows und Infor- 
mationsflüsse definieren und die Organisation von Dateien praktisch umsetzen lässt. 


5.2 Beispielszenario: Dateiorganisation in einem multinationalen 
Primärforschungsprojekt 


Betrachtet werden nachfolgend Beispiele für die Organisation von Dateien in einem multi- 
nationalen Primärforschungsprojekt, das Daten in mehreren Wellen selbst erhebt und diese 
nach Projektabschluss über ein Datenarchiv zur Nutzung bereitstellt. Als Beispiel verwenden 
wir die Europäische Wertestudie (European Values Study), da sie es ermöglicht, komplexe 
Ordnerstrukturen darzustellen, die sich dann an die Erfordernisse mittlerer oder kleinerer na- 
tionaler Projekte anpassen lassen. Unmittelbar kooperierende Projektbeteiligte sind in unse- 
rem Beispiel die zentralen Planungsgruppen, wie z.B. die Theoriegruppe und die Methoden- 
gruppe, die für die Entwicklung des Erhebungsinstruments bzw. die Erhebung und Aufbe- 
reitung der Daten und ihre Qualität verantwortlich sind, sowie die regional verteilten natio- 
nalen Teams, die die Erhebungen in den jeweiligen Ländern umsetzen. Darüber hinaus er- 
folgt eine Abstimmung mit dem Datenarchiv über die zu übergebenden und zu publizieren- 
den Daten und Materialien. 

Zunächst wird ein Lebenszyklusmodell erarbeitet, in dem die erforderlichen Haupt- 
schritte zur Realisierung der vereinbarten Projektziele definiert sind (vgl. Abbildung 5.1). Es 
schließt als Phasen die Projektplanung und Fragebogenentwicklung sowie die Datenerhe- 
bung und Datenaufbereitung ein und berücksichtigt eine sich anschließende Phase der Ar- 
chivierung und Bereitstellung der Daten. Das multinationale Design der Europäischen Wer- 
testudie erfordert als weitere Schritte die Übersetzung des Erhebungsinstruments in die 
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erforderlichen Sprachen und Konsultationsprozesse zwischen der Methodengruppe und den 
nationalen Teams, um die Vergleichbarkeit der Erhebungsinstrumente, Stichproben und Har- 
monisierungskonzepte zu überprüfen. Das Modell ist damit der Ausgangspunkt für eine de- 
taillierte Projektplanung, in welcher fiir die einzelnen Phasen konkrete Aufgaben und Ergeb- 
nisse definiert, die Verantwortlichkeiten zwischen den Projektpartnern vereinbart und 
Schritte der Qualitätskontrolle implementiert werden (vgl. Macias/Petrakos 2006: 2). 


Abbildung 5.1: Beispielhaftes Lebenszyklusmodell für ein multinationales Forschungsprojekt 


Datenarchi- 


7 vierung 
Entwicklung Konsultations- Datenaufbe- 
Übersetzung Feldphase A 

prozesse reitung 
Fragebogen 


Projekt- 


planung 


Forschung 


dl 


Quelle: Eigene Darstellung 


Betrachtet man den Bestand an Dateien, der in diesem Projekt organisiert werden muss, dann 
umfasst dieser zu Beginn des Projekts die Daten und Metadaten der vorausgehenden Erhe- 
bungswellen. Hierzu zählen z.B. das Erhebungsinstrument und die Frageübersetzungen und 
die Schritte der Datenharmonisierung, an die bei der Planung der neuen Erhebungswelle an- 
geknüpft werden kann (vgl. zur Wiederverwendung bereits existierender Metadaten Kapitel 
9.1.3). Im Projektverlauf werden neue Dokumente, Daten, Metadaten und Prozessinformati- 
onen für die aktuelle Erhebungswelle produziert, die als Originalinformationen, interne Ar- 
beitsdateien und zu publizierende Dateien in verschiedenen Versionen abgelegt werden und 
z.T. besondere Maßnahmen der Datensicherheit erforderlich machen (vgl. Kapitel 4.3). Nach 
Projektabschluss werden ausgewählte Daten und Dokumentationen, die eine Nutzung durch 
Dritte unterstützen, in den vereinbarten Formaten an das Datenarchiv übergeben. 

Für die Organisation dieser Dateien wird zu Beginn des Projektes eine Ordnerstruktur 
aufgebaut (vgl. Abbildung 5.2), die für Projektmitglieder intuitiv verständlich ist und von 
ihnen konsistent genutzt werden kann. Hierfür werden die Ordner der ersten Ebene aus den 
Phasen des Lebenszyklusmodells des Projekts — wie der Planungsphase, der Fragebogen- 
übersetzung usw. — abgeleitet. 

Die weitere Strukturierung in Unterordner folgt den unmittelbaren Arbeitsprozessen, die 
für die jeweiligen Projektphasen definiert sind. Somit wird es im Projektverlauf möglich, die 
Ordnerstrukturen auf der unmittelbaren Arbeitsebene zu erweitern, ohne dass sie für andere 
Projektmitglieder ihre Transparenz verlieren oder eine konsistente Nutzung erschwert wird. 
Hierfür werden im Projektkontext generelle und konkrete Regeln vereinbart und Vorgaben 
für eine standardisierte Beschreibung der Ordner entwickelt, z.B. in Form von Steckbriefen 
(s. die Schaukästen 5.2 und 5.3). Die Beschreibungen ermöglichen es den Projektbeteiligten, 
auf einen Blick zu erfassen, welche Arten von Informationen ein Ordner enthält, für wen 
diese zugänglich sind bzw. sein müssen und ob sie besondere Schutzanforderungen haben. 

Generelle Regeln sollen helfen, den Informationsfluss im Projektverlauf zu garantieren. 
Das erfordert, die Inhalte für die Ordner zu vereinbaren und sicherzustellen, dass erforderli- 
che Daten und Informationen mit den erforderlichen Zugriffsrechten versehen sind und für 
die jeweiligen Projektmitglieder zur Verfügung stehen. Konkrete Regeln beziehen sich un- 
mittelbar auf die Organisation und Sicherheit der Dateien und sollen helfen, redundante Da- 
teiablagen zu vermeiden, den Zugriff auf aktuelle Dateiversionen zu garantieren oder auch 
sensitive Informationen vor dem Zugriff sowie Originaldateien vor dem Überschreiben zu 
schützen. Sie legen darüber hinaus die Häufigkeit fest, in der Sicherungskopien für Dateien 
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und Back-ups für die Ordnerstruktur erstellt werden müssen und geben Anleitungen für die 
Benennung und Versionierung von Dateien (s. Abschnitt 5.3.4). 


Abbildung 5.2: Hauptordner auf Grundlage des Lebenszyklusmodells 
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Quelle: Eigene Darstellung 


Um den Übergang der Projektergebnisse in die Datenarchivierung und Nachnutzung mög- 
lichst einfach zu gestalten, sollte bereits zu Beginn des Projekts definiert werden, welche 
Daten und Dokumente für die Nachnutzung benötigt werden (s. Kapitel 3.2). Dazu gehören 
neben den Daten selbst auch ergänzende Dokumente, die es ermöglichen, die methodischen 
Grundlagen, den Inhalt und die Qualität der Daten sowie ihre Relevanz für das eigene Projekt 
zu beurteilen. Finale Versionen der entsprechenden Dateien werden dann nicht nur an eine 
nachfolgende Phase im Lebenszyklus weitergegeben, sondern finden in unserem Beispielsze- 
nario zusätzlich Eingang in den Ordner Übergabe_Datenarchiv. 


5.2.1 Beispiel 1: Ordner Planungsdokumente 


Das erste Beispiel in Abbildung 5.3 beschreibt die Struktur des Hauptordners Planungsdo- 
kumente, der die Konzepte, Standards und Erhebungsinstrumente enthält, die zu Beginn eines 
Projektes entwickelt werden. Sie stellen für die Primärforschenden die Grundlage zur Durch- 
führung des Projekts dar und sind für Sekundärforschende eine zentrale Informationsquelle 
bei der Nachnutzung der Daten. Die Aufgabe des Ordners ist es, für die zentralen Planungs- 
gruppen die Entstehung und Veränderung der Dokumente nachvollziehbar zu machen und 
für alle Projektmitglieder jederzeit den Zugriff auf die aktuellen Versionen der Projekt-Gui- 
delines zu garantieren. 

Die Planungsdokumente werden vorrangig in Besprechungen der zentralen Planungs- 
gruppen, wie der Methodengruppe und der Theoriegruppe bei der Europäischen Wertestudie, 
entwickelt und in den internen Meetings-Ordnern abgelegt. An geeigneter Stelle (z.B. auf 
der übergeordneten Hierarchieebene oder im Ordner selbst) kann ein Ordnersteckbrief Pla- 
nungsdokumente hinterlegt werden, wie in Schaukasten 5.2 dargestellt. Der Ordner Version 
History ermöglicht es, die im Projektverlauf vorgenommenen Veränderungen an den Pla- 
nungsdokumenten nachzuvollziehen. Die verifizierten Versionen der Dokumente werden in 
einem Ordner Projekt Guidelines gespeichert, der bei komplexeren Projekten weiter in 
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Unterordner strukturiert werden kann, die thematisch den Lebenszyklusphasen folgen. Die 
Planungsdokumente stehen damit allen Akteuren zur Verfügung und können die Grundlage 
für nachfolgende Prozesse und Entscheidungen bilden. Nach Abschluss des Projekts sind sie 
Teil der Informationen, die zusammen mit den Daten an ein Datenarchiv übergeben werden. 


Abbildung 5.3: Struktur des Ordners Planungsdokumente 


— 
Planungs- m 
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Schaukasten 5.2: Ordnersteckbrief Planungsdokumente 
Kriterium Beschreibung des Ordners 
Inhalt Erhebungsinstrumente, methodische Konzepte, Standards 
Verantwortlichkeit Zentrale Planungsgruppe(n) 
Quelle der Information Meetings der zentralen Planungsgruppe(n) 
weitere Quellen Ergebnisse vorausgehender Erhebungswellen oder anderer 
Datenkollektionen 
Informationstransfer an alle folgenden Phasen 
Zugang zu den Ergebnissen alle Projektmitglieder 
Zugang zu internen Dokumenten zentrale Planungsgruppe(n) 
besondere Anforderung Version History fiir die offiziellen Planungsdokumente 
Datensicherheit -- 


Quelle: Eigene Darstellung 
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5.2.2 Beispiel 2: Ordner Datenaufbereitung 


Der Hauptordner Datenaufbereitung enthält zum einen die Daten und Informationen, die aus 
der Feldphase an die Phase der Datenaufbereitung übergeben wurden. Er beinhaltet zum an- 
deren die aufbereiteten Daten und Dokumentationen, die nach Abschluss der Projektarbeiten 
an ein Datenarchiv weitergegeben und für die Forschung bereitgestellt werden (siehe Abbil- 
dung 5.4). Seine Aufgabe hierbei ist es, den Dialog und die Zusammenarbeit zwischen den 
Projektpartnern zu unterstützen, Transparenz zu den entstehenden Daten und Informationen 
herzustellen und vorgenommene Modifikationen an den Daten nachvollziehbar zu machen 
(s. Kapitel 6). 


Abbildung 5.4: Struktur des Ordners Datenaufbereitung 
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Quelle: Eigene Darstellung 


Hierfür wird eine Ordnerstruktur (inklusive Steckbrief Datenaufbereitung, wie in Schaukas- 
ten 5.3 dargestellt) aufgebaut, die die Hauptschritte des Datenaufbereitungsworkflows nach- 
bildet. Beschreibende Namen geben Auskunft über die Inhalte der Ordner und die verant- 
wortlichen Akteure sowie den Status, in dem sich die jeweiligen Dateien im Workflow be- 
finden. Die Akteure in diesem Prozess sind ein zentrales Team und regionale Teams, die zur 
Überprüfung und Verifizierung vorgenommener Bearbeitungsschritte Dateien untereinander 
transferieren. 


-  (D Die in der Feldphase erhobenen Daten und Informationen werden von dem regionalen Team in 
dem Ordner Datenlieferung abgelegt und vor dem Überschreiben geschützt. Sie werden vom zentra- 
len Forschungsteam auf Vollständigkeit hin überprüft und in den Ordner Ausgangs_Datenfiles abge- 
legt. Dieser Ordner bildet den Ausgangspunkt für die weiteren Aufbereitungsschritte. 

- DOO Der Aufbereitungsworkflow kann einen oder mehrere Bearbeitungsrunden umfassen. Hier- 
bei werden die Daten von dem zentralen Team weiter überprüft und bearbeitet und in den Ordner 
Zentrales_Team abgelegt. Daran anschließend werden die Veränderungen von dem regionalen Team 
überprüft, bestätigt bzw. weitere Veränderungen vorgeschlagen und die Ergebnisse in den Ordner 
Regionales_Team abgelegt. 

- @) Ist die Bearbeitung und Überprüfung abgeschlossen, werden die verifizierten Files durch das 
zentrale Forschungsteam in den Ordner Final_Datenversion abgelegt und sind dem regionalen Team 
zugänglich. 
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+ (©) Interne Prozessinformationen werden zusammen mit Informationen aus den vorausgehenden Pro- 
jektphasen in Methodenberichten und Variablendokumentationen zusammengestellt. Sie werden zu- 
sammen mit den aufbereiteten Daten und ggf. Paradaten? in dem Ordner Uebergabe_Datenarchiv 


gespeichert. 
Schaukasten 5.3: Ordnersteckbrief Datenaufbereitung 
Kriterium Beschreibung des Ordners 
Inhalt Daten, Metadaten, Dokumente, Prozessinformationen 
Verantwortlichkeit zentrales Aufbereitungsteam/nationales Team 
Quelle der Information Daten und Metadaten aus der Feldphase 
weitere Quellen Informationen aus den vorausgehenden Projektphasen 
Weitergabe der Ergebnisse für Analysen der Primärforscher und Übergabe an Datenarchiv 
Zugang zu den Ergebnissen Primärforschende/Sekundärforschende 
besondere Anforderung Sicherung der Originaldaten Version History für alle 
Datenmodifikationen 
Datensicherheit Sicherung von nicht faktisch anonymisierten Daten 


Quelle: Eigene Darstellung 


Die bisherigen Beispiele beschreiben die Dateiorganisation in einem größeren Forschungs- 
projekt. Ausgehend von dem Lebenszyklus des Projekts wurde eine Ordnerstruktur entwi- 
ckelt, die es ermöglicht, die Daten und Informationen der Projektphasen strukturiert abzule- 
gen und durch eine tiefere Gliederung in Unterordner die Zusammenarbeit der beteiligten 
Akteure zu unterstützen. Mittlere und kleine Projekte können dieses Modell einfach an ihre 
Erfordernisse anpassen. Das Lebenszyklus-Modell beinhaltet dann nur die für das Projekt 
erforderlichen Phasen und eine tiefere Strukturierung der Ordner wird nur vorgenommen, 
wenn z.B. die Versionierung von Files nicht ausreichend ist, um die einzelnen Bearbeitungs- 
schritte der Projektmitglieder nachvollziehen zu können. 


5.3 Allgemeine Maßnahmen und Hinweise zur Dateiorganisation 


Zum Abschluss sollen noch allgemeine Handlungsempfehlungen zur Organisation, Benen- 
nung und Handhabung von Dateien im Projektkontext gegeben und so die Anpassung der in 
den vorangegangenen Beispielen geschilderten Maßnahmen an eigene Projekte erleichtert 
werden. 


5.3.1 Konventionen für die Benennung von Dateien und Ordnern 


Unabhängig vom Projektumfang verbessern durchdachte und konsistent angewandte Regeln 
für die Benennung von Dateien und Ordner die Auffindbarkeit gesuchter Informationen. Sie 
verringern mittelbar auch die Gefahr, an veralteten oder falschen Versionen einer Datei zu 


2 Bei Paradaten handelt es sich um Daten, die im Prozess der Erhebung von Umfragedaten entstehen. Je nach 
Erhebungsmodus können das z.B. sein: die Anzahl und das Ergebnis der Kontaktaufnahmen mit dem Befrag- 
ten, Zeitpunkt und Dauer der Befragung, die Beschreibung der Wohngegend bzw. des Haushalts oder auch das 
Antwortverhalten der befragten Personen (vgl. Felderer/Birg/Kreuter 2014: 357%). 
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arbeiten und dienen so der Qualitätssicherung. Projekte sollten daher Benennungskonventio- 
nen für Dateien und Ordner formulieren und schriftlich fixieren. Die Einhaltung der Konven- 
tionen sollte regelmäßig überprüft werden. Schaukasten 5.4 enthält Hinweise zu formalen 
Aspekten, die bei der Benennung von Ordnern und Dateien zu beachten sind. 


Schaukasten 5.4: Namenskonventionen für Ordner und Dateien 


Neben inhaltlichen Aspekten sind bei der Benennung von Dateien und Ordnern auch formale Regeln zu 
beachten. Dies hilft sicherzustellen, dass Datei- und Pfadnamen von verwendeter Software verarbeitet wer- 
den können. So sollten die Namen von Ordnern und Dateien: 


+ keine Leer- und Sonderzeichen enthalten (Ausnahme: Unterstriche und Bindestriche sind möglich), 

* nicht zu lang sein, da unter Windows nur eine maximale Pfadlänge von 255 Zeichen möglich ist. 
Längere Pfade können bedeuten, dass Dateien nicht mehr geöffnet oder verschoben werden kön- 
nen oder dass automatisierte Back-ups nicht erfolgen. 

« einheitlichen Regeln für Groß-/Kleinschreibung folgen, da manche Betriebssysteme oder Software- 
produkte diesbezüglich unterscheiden. D.h. MeetingProtokoll.txt und Meetingprotokoll.txt werden in 
manchen Umgebungen als identisch, in anderen als zwei unterschiedliche Dokumente interpretiert. 


Quelle: Eigene Darstellung 


Auf inhaltlicher Ebene können insbesondere Dateinamen Informationen transportieren, die 
es erlauben, den Inhalt der Datei zu erkennen — z.B. den Dokument- oder Dateityp, das Er- 
stellungsdatum, die erstellende Person oder die Version. So enthält etwa der Dateiname 
quest_che_ger_20170401_v1-0-1.docx folgende Informationen: 


+ quest. Es handelt sich um einen Fragebogen; 

+ che: Der Fragebogen bezieht sich auf die Schweiz (Verwendung des Codes für Lander nach ISO 
3166); 

« ger: Die Sprache des Fragebogens ist Deutsch (Verwendung des Codes für Sprachen nach ISO 639); 

« 20170401: Die Datei wurde am 1. April 2017 erstellt (angegeben im Format YY YYMMDD); 

+ vl-0-1: Es handelt sich um Version 1.0.1. 


Fur die Benennung von Ordnern sind sprechende Namen zu empfehlen, wie in den Beispielen 
verwendet. Diese sorgen für eine möglichst intuitive Nutzbarkeit der Ordnerstruktur und er- 
leichtern Projektmitarbeitenden so die Orientierung und das zügige Auffinden relevanter In- 
formationen. Zu diesem Zweck ist es außerdem empfehlenswert, Ordner nicht zu tief zu 
strukturieren, sondern sich, wenn möglich, auf wenige Hierarchieebenen zu beschränken. 
Zentral abgelegte Kurzbeschreibungen der Ordner, z.B. in Form der beschriebenen Steck- 
briefe (vgl. Schaukästen 5.2 und 5.3), können die Orientierung für alle Projektmitarbeiterin- 
nen und -mitarbeiter weiter erleichtern und damit einen effizienten Arbeitsprozess unterstüt- 
zen. 


5.3.2 Metadaten und Versionskontrolle 


Um die Datei- und Ordnernamen nicht zu überfrachten, ist es empfehlenswert, weitere Infor- 
mationen zum Inhalt oder Bearbeitungsstatus einer Datei auf leicht zugängliche Weise in 
anderer Form zu dokumentieren. So können Informationen zur Version und darüber, wer ein 
Dokument erstellt hat, wann es erstellt wurde und wann es durch wen zuletzt bearbeitet wurde 
im Kopfbereich des Dokuments oder als Variable im Datensatz mitgeführt werden. Wenn 
dies nicht möglich oder praktikabel ist, können diese Informationen auch in einer gesonder- 
ten Datei festgehalten werden. 

Es kann zudem hilfreich sein, eingebettete Dateiinformationen zu pflegen. Beispielsweise 
ermöglichen es alle gängigen Betriebssysteme, Schlagworte und Kategorien für Dateien zu 
vergeben. Diese können die gezielte Suche nach Informationen unterstützen, sollten aber 
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nicht als ausschließliches Mittel zur Speicherung dieser Informationen genutzt werden, da 
sie programm- und betriebssystemabhängig sind und bei Systemwechseln in der Regel nicht 
mittransportiert werden. 


Schaukasten 5.5: Beispiel Versionshistorie und -informationen im Dokumentkopf 
Dokumenttitel Landerfragebogen Schweiz (deutsch) 
Inhalt Fragebogen fur die Erhebungswelle 2018 (Schweiz, deutschsprachig) 
Dokument erstellt von Susanne Dubois 
Dokumentstatus Entwurf 
Verantwortlich Susanne Dubois 
Beziehung zu anderen Ubersetzung des englischen Master-Questionnaire 2018, Version 1.0.0 
Dokumenten 
Version Geändert von Anderungsprotokoll Geändert am 
2.0.0 Mika Taylor fehlende Fragen 43 und 44 einge- 2017-05-12 
fügt 
1.1.2 Mika Taylor Tippfehler im Erläuterungstext 2017-05-08 
Frage 16 korrigiert 
1.1.1 Alex Friedrich Tippfehler in Fragen 2, 4, 11 korri- 2017-05-03 
giert 
1.1.0 Alex Friedrich Uberarbeitung der Intervieweran- 2017-04-15 
weisung in Fragen 10, 20, 25 
1.0.0 Susanne Dubois Fragebogen als Ubersetzung 2017-04-01 
erstellt 


Quelle: Eigene Darstellung 


Die Versionierung und das Protokollieren von Änderungen an Dokumenten und Datensätzen 
dienen der Nachvollziehbarkeit und damit auch der Qualitätssicherung im Projekt. Es wird 
z.B. Transparenz darüber hergestellt, welche Veränderungen an Datensätzen und Dokumen- 
ten seit der ersten Erstellung vorgenommen wurden. Jedes Projekt sollte Regeln für die Ver- 
sionierung festlegen und als Richtlinie schriftlich fixieren. Dies beinhaltet Regeln, wie Än- 
derungen zu dokumentieren sind und welche Änderungen zu einer neuen Version führen. Bei 
der Erstellung von Versionierungsregeln ist auch darauf zu achten, dass Beziehungen zwi- 
schen unterschiedlichen Versionen zusammengehöriger Dateien ersichtlich bleiben. 

Die Version einer Datei kann an ganz unterschiedlichen Stellen festgehalten werden, wie 
etwa im Dateinamen oder in der Datei selbst und verschiedene Formen annehmen. So kann 
die Version einer Datei etwa durch das Datum der letzten Bearbeitung oder eine fortlaufende 
Versionsnummer markiert werden. Verbreitete Verfahren sind hierbei das der Major.Minor- 
Versionsnummer (zweistellig) oder der Major. Minor.Sub-minor-Versionsnummer (dreistel- 
lig). Auch die Versionshistorie kann in einem separaten Dokument gepflegt oder direkt im 
Kopf des betreffenden Dokuments mitgeführt werden (s. Schaukasten 5.5). 

Jensen (2012: 42) empfiehlt bei der Versionierung von Datensätzen im dreistufigen Ver- 
fahren folgende Regeln zum Hochzählen der Versionsnummer: 


- ,,1. Position / Major-Nummer: Sie wird verändert, wenn 


e eine oder mehrerer Fälle [sic] in (aus) einem Datensatz eingefügt (gelöscht) werden; 

+ eine oder mehrerer Variablen [sic] in (aus) einem Datensatz eingefügt (gelöscht) werden; 
* eine oder mehrere neue Wellen in einen integrierten Datensatz eingefügt werden; 

* ein o. mehrere Sample in den integrierten o. kumulierten Datensatz eingefügt werden. 
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2. Position / Minor-Nummer: Sie wird verändert, wenn Änderungen einer Variablen, d.h. bedeu- 
tungsrelevante Korrekturen oder Ergänzungen im Datensatz vorgenommen werden (Labels, Reco- 
dierungen, Datenformate, etc.). 

3. Position / Revision-Nummer: Sie wird verändert, wenn etwa einfache Überarbeitungen von Labels 
ohne Bedeutungsrelevanz vorgenommen werden.“ 


Analog dazu können selbstverständlich auch Regeln für die Versionierung von Textdoku- 
menten erstellt werden. 

Versionskontrolle kann intellektuell erfolgen oder teilweise automatisiert mit Hilfe von 
Software wie z.B. git oder Subversion (vor allem für Quelltext), Etherpad, Owncloud (Text- 
dokumente) oder dem Open Science Framework. Hierbei ist zu beachten, dass die Software 
zwar in der Regel die Änderungen an einem Dokument automatisch aufzeichnet, dass aber 
häufig eine Versionsnummer zur Bezeichnung eines bestimmten Stands manuell vergeben 
werden muss und so kommentiert werden sollte, dass deutlich wird, wie Versionen sich un- 
terscheiden. 


5.3.3 Zugangsrechte 


Im Rahmen der Planung der Informationsflüsse und der Dateiorganisation im Projekt sollten 
insbesondere in kollaborativen Projekten auch differenzierte Zugangsrechte zu Ordnern so- 
wie ggf. weitere Schutzmaßnahmen für sensitive Daten schriftlich festgelegt werden. Dies 
kann z.B. auf Netzlaufwerken über Berechtigungen erreicht werden. So empfiehlt es sich vor 
allem, Masterfiles durch Beschränkung der Schreibrechte gegen Überschreiben oder Löschen 
zu schützen und Änderungen nur an Arbeitsversionen der Daten und Dokumente vorzuneh- 
men. 

Wann immer im Projekt personenbezogene Daten anfallen, sind geeignete Schutzmaß- 
nahmen zu ergreifen, damit diese Informationen nur von autorisierten Personen gelesen und 
bearbeitet werden können. Hierzu gehören restriktive Lese- und Schreibrechte, Passwort- 
schutz und die Verwendung von Verschlüsselungsprogrammen. 

Bei der technischen Verschlüsselung von Dateien oder Laufwerken werden diese von 
einem geeigneten Programm auf der Bit-Ebene so verändert, dass sie keine Informationen 
mehr transportieren, sondern nur noch aus bedeutungslosen Zeichenfolgen bestehen. Nur mit 
Hilfe des richtigen Schlüssels in Form eines Passworts können die Bitsequenzen der Origi- 
naldateien wiederhergestellt und lesbar gemacht werden. Selbst wenn nun unautorisierte Per- 
sonen Zugriff auf Dateien oder Laufwerke erhalten — z.B. weil sie bei der Übermittlung über 
unsichere Kommunikationskanäle mitgelesen wurden (unverschlüsseltes WLAN, E-Mail), 
weil ein Datenträger in die falschen Hände geraten ist (Verlust, Diebstahl) oder weil jemand 
sich Zugang zu dem Server verschafft hat (Hacking) -, ist ein Auslesen der gespeicherten 
Informationen ohne Kenntnis des Schlüssels nicht möglich. Das bedeutet aber auch, dass bei 
Verlust des Schlüssels die Informationen für die Forschenden selbst nicht mehr zu rekonstru- 
ieren sind, weshalb dieser unbedingt sicher und vor Verlust geschützt aufbewahrt werden 
sollte. 

Grundsätzlich ist von einer Speicherung und Übermittlung personenbezogener Daten 
ohne vorherige Verschlüsselung abzuraten. Einen Überblick über verfügbare Software bieten 
UK Data Service (2018) und der vierte Teil des CESSDA Expert Tour Guide on Data Ma- 
nagement (2017). 

Eine weitere Maßnahme zum Schutz von Personen, deren Daten in Forschungsprojekten 
erhoben und gespeichert werden, ist die getrennte Speicherung von direkten Identifizierungs- 
merkmalen und übrigen erhobenen Daten. Zu diesem Zweck würden z.B. Kontaktinformati- 
onen wie Namen und E-Mail-Adressen aus dem Datensatz entfernt und in einer separaten, 
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besonders geschiitzten, Datei gespeichert werden. Eine Zuordnung der Kontaktinformatio- 
nen zum jeweiligen Fall im Datensatz erfolgt dann über eine ein-eindeutige ID (Schlüssel). 


5.3.4 Back-up-Strategien 


Unabhängig davon, wie Dateien im Projekt organisiert werden, sollte mit Hilfe einer geeig- 
neten Back-up-Strategie dafür Sorge getragen werden, dass es nicht zu versehentlichen Ver- 
lusten von Dateien und Informationen kommt. Der Abschnitt „Backup“ im vierten Kapitel 
des CESSDA Expert Tour Guide on Data Management (CESSDA 2017°) empfiehlt hierzu 
die Orientierung an den folgenden Fragen: 


1. Verfügt die eigene Institution über eine Back-up-Strategie? Wenn ja, sollten Projekte Details dieser 
Strategie in Erfahrung bringen und mit den eigenen Anforderungen abgleichen. Sofern aus Projekt- 
sicht Maßnahmen erforderlich sind, die über die institutionelle Strategie hinausgehen, sollten diese 
in der Projektplanung berücksichtigt und entsprechende Kosten eingeplant werden. 

2. Was soll gesichert werden? Hier gilt es zu entscheiden, ob bei jedem Back-up der komplette Bestand 
an Dateien gesichert werden soll oder ob z.B. nur seit dem letzten Back-up aktualisierte Dateien in 
die Speicherung einfließen sollen. 

3. Wie viele Kopien werden benötigt und wo sollen sie gesichert werden? In der Regel wird empfohlen, 
drei redundante Sicherungskopien der Projektdateien anzufertigen und möglichst an unterschiedli- 
chen Orten aufzubewahren (z.B. auf Servern, die nicht im selben Gebäude stehen). Die Häufigkeit 
der Back-ups sollte sich daran orientieren, wie häufig (umfangreiche) Änderungen an den Dateien 
vorgenommen werden. 

4. Wieviel Speicherkapazität wird benötigt? Wenn eine größere Kapazität benötigt wird, als z.B. die 
eigene Institution kostenlos zur Verfügung stellt, sollten entsprechende Kosten bei der Projektpla- 
nung berücksichtigt werden. 

5. Gibt es Software, mit denen Back-ups gemäß den Projektanforderungen automatisiert durchgeführt 
werden können? Automatische Back-ups können helfen, Datenverlust durch menschliches Versagen 
(z.B. durch Vergessen oder versehentliches Überschreiben) zu verhindern. Wenn eine Software zur 
automatisierten Erstellung von Sicherungskopien verwendet wird, sollte dennoch regelmäßig über- 
prüft werden, dass dies tatsächlich korrekt erfolgt ist. 

6. Wie lange sollen Back-ups aufbewahrt und wie sollen sie vernichtet werden? Es ist häufig nicht 
notwendig, alle Sicherungskopien, die im Projektverlauf erstellt werden, über die gesamte Projekt- 
laufzeit aufzubewahren. Insbesondere wenn Speicherkapazitäten knapp sind, kann zusätzlicher Spei- 
cherplatz durch die (geregelte) Löschung alter Sicherungskopien freigegeben werden. Im Fall von 
sensitiven, personenbezogenen Daten sollten zudem geeignete Maßnahmen zur sicheren Vernich- 
tung der Informationen erfolgen (z.B. mehrfaches Überschreiben mit Hilfe geeigneter Software). 

7. Wie werden personenbezogene Daten geschützt? Die Faustregel im Fall von personenbezogenen Da- 
ten lautet: Die Sicherungskopien müssen mit der gleichen Sorgfalt geschützt werden wie die zu si- 
chernden Ausgangsdateien. D.h., auch hier sind, wie oben beschrieben, technische Schutzvorkehrun- 
gen wie Passwörter und Verschlüsselung einzusetzen. Zudem ist es bei sensitiven Daten u.U. emp- 
fehlenswert, weniger als drei Sicherungskopien anzufertigen. 


Wenn unter Berücksichtigung dieser Fragen eine Back-up-Strategie erstellt wurde, sollten — 
wie in anderen Bereichen der Projekt- und Datenmanagementplanung auch — klare Verant- 
wortlichkeiten benannt werden (vgl. CESSDA 2017). Diese sollten u.a. die (Kontrolle der) 
Durchführung der Back-ups und die regelmäßige Überprüfung der Lesbarkeit der gesicherten 
Dateien beinhalten. So ist sichergestellt, dass im Falle eines Datenverlusts keine schwerwie- 
genden Konsequenzen drohen, die den Projekterfolg gefährden könnten. 


3 Die Absätze 1 bis 7 erstellten die Autor/-innen in Anlehnung an den englischsprachigen Guide. 
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5.4 Zusammenfassung 


Im Rahmen des Forschungsdatenmanagements gilt es zu Beginn des Forschungsprojekts 
wichtige Maßnahmen zur Dateiorganisation und der Gestaltung von Informationsflüssen im 
Projekt abzustimmen und zu verschriftlichen. Auf der Prozessebene umfasst dies insbeson- 
dere die Beschäftigung mit der Frage, welche der im Projekt erhobenen und/oder verarbeite- 
ten Informationen für welche Akteurinnen und Akteure zu welchem Zeitpunkt verfügbar sein 
müssen. Dies bezieht sich nicht nur auf die primären Forschungsobjekte, d.h. die Daten, son- 
dern auch auf vielfältige Prozessinformationen. Auf der Dateiebene gilt es, das Bemühen um 
einen möglichst transparenten und effizienten Forschungsprozess mit Regeln zur Benennung 
und Versionierung von Dateien sowie differenzierten Zugangsrechten zu Informationen zu 
unterstützen. Übergeordnetes Ziel all dieser Maßnahmen ist die Vermeidung von Informati- 
onsverlusten sowie die Nachvollziehbarkeit des Forschungsprozesses mit allen getroffenen 
Entscheidungen, die Auswirkungen auf die Forschungsergebnisse haben. Dies unterstützt 
nicht nur den Forschungsprozess im Ausgangsprojekt, sondern erleichtert auch die Nachnut- 
zung von Projektergebnissen durch Dritte. 

Lebenszyklus-Modelle von Forschungsdaten können hilfreich dabei sein, Informations- 
flüsse im Projekt und die Strukturierung von Informationen in Dateien und Ordnern zu pla- 
nen und für alle Projektbeteiligten transparent umzusetzen. So kann anhand der Phasen des 
Modells veranschaulicht werden, welche Informationen wann und durch wen generiert wer- 
den und an wen sie im nächsten Schritt übergeben werden müssen. Sprechende Datei- und 
Ordnernamen und die Ordnung von Dateien anhand der Phasen des Lebenszyklus unterstüt- 
zen die Auffindbarkeit von Informationen. Die Authentizität und Integrität der gespeicherten 
Informationen lässt sich mit Hilfe von Versionierungsregeln und einem differenzierten 
Rechtemanagement für den Zugriff auf Dateien gewährleisten. Derartige Maßnahmen för- 
dern einen reibungslosen Projektverlauf und die erfolgreiche Umsetzung der Forschungs- 
ziele. 
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6. Datenaufbereitung und Dokumentation 


Evelyn Brislinger und Meinhard Moschner 


6.1 Datenaufbereitung im Lebenszyklus eines Projekts 


Die Datenaufbereitung und Dokumentation als eine Phase im Verlauf eines empirischen For- 
schungsprojekts hat das Ziel, die erhobenen Daten für die Forschung nutzbar zu machen. 
Hierbei werden die Daten codiert, überprüft, bearbeitet und dokumentiert. Das stellt For- 
schende vor die Aufgabe, die einzelnen Arbeitsschritte zu definieren und zu einem Workflow 
zusammenzusetzen. Dieser geht idealerweise von der Art und Komplexität der Daten aus und 
hilft, die Ziele des Projekts umzusetzen, ohne die oft begrenzten zeitlichen und finanziellen 
Ressourcen aus dem Blick zu verlieren. 

Unter empirischen Forschungsprojekten verstehen wir in diesem Kapitel Projekte, die auf 
der Grundlage eines Erhebungsinstruments einfache oder komplexe zeit- und/oder länder- 
vergleichende Daten erheben und diese als Analysefiles aufbereiten. Die Projektziele können 
ausgehend von den Prinzipien guter wissenschaftlicher Praxis zunächst auf die Datenqualität, 
im Sinne möglichst fehlerfreier Daten, gerichtet sein. Darüber hinausgehend können sie wei- 
tere Möglichkeiten der Datennutzung, wie z.B. die Replikation der Projektergebnisse oder 
auch eine Nachnutzung der Daten durch Dritte, eröffnen. Mit der Komplexität der Daten und 
dem Wunsch, den Prozess ihrer Entstehung und Bearbeitung transparent zu machen, wachsen 
gleichzeitig die Anforderungen an ihre Aufbereitung und Dokumentation. Vorgenommene 
Datenmodifikationen müssen dann auch für Forschende außerhalb des Projekts nachvollzieh- 
bar und Datenprobleme gut dokumentiert sein. Nur so bleibt die Datenqualität für nachfol- 
gende Analysen bewertbar und es erschließen sich insbesondere komplexe Datenfiles auch 
ohne internes Projektwissen. 

Die Angebote von Repositorien und Datenarchiven können dann genutzt werden, um die 
Projektergebnisse nachhaltig zu sichern und für eine erneute Nutzung bereitzustellen (DFG 
2015). Hierfür muss am Ende eines Projekts eine Dokumentation zur Verfügung stehen, die 
Datennutzenden eine Bewertung des Inhalts und der Qualität der Daten ermöglicht und 
gleichzeitig den Standards des gewählten Repositoriums oder Datenarchivs entspricht. Er- 
fahrungsgemäß gelingt dies eher dann und ohne zusätzliche Ressourcen, wenn dieser Schritt 
frühzeitig geplant wird und die Informationen und Dokumentationen im Projektverlauf zeit- 
nah aufgebaut und systematisch organisiert werden (Ball 2012: 3). 

Da im Alltag empirischer Forschungsprojekte die Analyse der erhobenen Daten und die 
Publikation der Forschungsergebnisse im Vordergrund stehen, sind Ressourcen und Zeit für 
ihre tiefere Aufbereitung und umfassende Dokumentation oft begrenzt. Projekte stehen dem- 
zufolge vor der Herausforderung, einen Datenaufbereitungsworkflow zu entwickeln, der 
möglichst schlank ist und gleichzeitig eine hohe Datenqualität sowie umfassende Dokumen- 
tation ermöglicht. Ausgehend hiervon richtet sich der Beitrag auf die Frage, wie ein syste- 
matisches Forschungsdatenmanagement (Jensen 2011) helfen kann, die Ziele eines Projekts 
in praxisnahe Workflows und Arbeitsschritte zu übersetzen und diese zwischen den beteilig- 
ten Personen zu kommunizieren. 

Hierfür erörtern wir zunächst die Bedeutung der Planung der Datenaufbereitungsschritte 
im Lebenszyklus eines Forschungsprojekts (Kapitel 6.2). Wir gehen dann auf Regeln, Stan- 
dards und Prozeduren ein, die für die Variablencodierung (Kapitel 6.3) sowie für die Prüfung 
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und Behandlung von Datenfehlern (Kapitel 6.4), als Kernaufgaben der Datenaufbereitung, 
erforderlich sind. Auf dieser Grundlage entwickeln wir das Modell eines Datenaufberei- 
tungsworkflows (Kapitel 6.5), der die geplanten Bearbeitungsschritte zusammenfasst und 
hilft, diese in die Praxis umzusetzen. Abschließend erörtern wir die Bedeutung des Transfers 
der Daten und Informationen im Projektverlauf für den Aufbau einer umfassenden Doku- 
mentation (Kapitel 6.6). 

Die Beispiele, die wir hierfür verwenden, stammen z.T. aus größeren Forschungsprojek- 
ten. Sie illustrieren den Grundgedanken des Beitrags, zu Beginn eines Projekts Datenaufbe- 
reitungsregeln zu vereinbaren und die erforderlichen Datensätze und Variablen zu definieren, 
hieraus geeignete Bearbeitungsschritte abzuleiten und schließlich die einzelnen Elemente zu 
einem Workflow zusammenzusetzen. Sie lassen sich somit gleichermaßen in die Praxis mitt- 
lerer und kleinerer Projekte umsetzen. 


6.2 Planung der Datenaufbereitung und Dokumentation 


Lebenszyklusmodelle stellen ein hilfreiches Werkzeug für die Planung und das Management 
von Forschungsdaten dar, indem sie es ermöglichen, die erforderlichen Schritte der Entste- 
hung und Bearbeitung der Daten frühzeitig zu bedenken (Ball 2012: 3). Eine umfassende 
Darstellung des Lebenszyklus von Forschungsdaten findet sich in Kapitel 2.2. Abbildung 6.1 
illustriert ein vereinfachtes Modell, auf das wir in diesem Kapitel in verschiedenen Zusam- 
menhängen zurückkommen werden. Beim Aufbau eines Lebenszyklusmodells gehen For- 
schende idealerweise von der Art, den Zielen und der Komplexität des Projekts aus und de- 
finieren die erforderlichen Projektphasen. Für die einzelnen Phasen können dann, wie in der 
Abbildung exemplarisch gezeigt, die Arbeitsschritte sowie die hierbei zu generierenden Da- 
ten und Informationen geplant werden. Auf dieser Grundlage wiederum werden die Verant- 
wortlichkeiten zwischen den am Projekt beteiligten Akteuren vereinbart und der Transfer der 
Daten und Informationen zwischen ihnen organisiert. Schließlich kann das entstandene Le- 
benszyklusmodell hinsichtlich redundanter Arbeitsschritte, wie z.B. wiederholt eingesetzte 
Prozeduren der Datenbearbeitung, überprüft und ggf. vereinfacht werden. Für eine umfas- 
sende und detaillierte Beschreibung der Phasen empirischer Forschungsprojekte verweisen 
wir auf die Cross-Cultural Survey Guidelines (Survey Research Center 2016). 

Schaut man auf die Daten, die die Phasen des Lebenszyklusmodells durchlaufen, zeigt 
sich ein einfacher Workflow: In der Planungsphase wird das Erhebungsinstrument entwi- 
ckelt. Auf dieser Grundlage werden die Daten erhoben und in das sogenannte Rohdatenfile 
überführt. Die Rohdaten werden weiter bearbeitet und als interne Arbeitsfiles gesichert. 
Diese wiederum bilden den Ausgangspunkt für die Generierung der Analysefiles, die für eine 
Nutzung innerhalb und außerhalb des Projekts bereitgestellt werden können. Bei kleinen Pro- 
jekten sind an diesem Prozess das Projektteam und ggf. ein Datenarchiv oder Repositorium 
beteiligt. Mittlere und große Projekte arbeiten darüber hinaus oft mit einem oder mehreren 
Erhebungsinstituten bzw. mit regional verteilten Projektpartnern zusammen. 
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Abbildung 6.1: Datenaufbereitung als Phase im Lebenszyklus von Forschungsdaten 


Projektplanung 


Erhebungsinstrument 
Datenaufbereitungsworkflow 

Regeln der Variablencodierung & 
Prüfung/Behandlung von Datenfehlern 


Bereitstellung 
Archivierung 


Datenerhebung 


Forschung Datenerfassung 


Überprüfung der Daten/Dokumentation 
Erstellung von Metadaten 
Bereitstellung in Retrieval-Systemen 
Mittel- /langfristige Archivierung 


Variablencodierung 

Aufbau des Rohdatenfiles 
Anwendung von Prüfprozeduren 
Dokumentation der Datenerhebung 


Datenaufbereitung 
Dokumentation 


Aufbau der Arbeits- und Analysefiles 
Variablencodierung 
Prüfung/Behandlung von Datenfehlern 
Dokumentation der Datenaufbereitung 


Quelle: Eigene Darstellung in Anlehnung an Survey Research Center (2016) 


Betrachtet man nur die Phase der Datenaufbereitung und Dokumentation im Lebenszyklus- 
modell, dann müssen hierfür Regeln, Standards und Prozeduren vereinbart werden. Diese 
umfassen den Prozess von der Definition der einzelnen Variablen bis hin zur Bereitstellung 
des Analysefiles für die Forschung. Bei der Planung der erforderlichen Arbeitsschritte und 
Ressourcen sollten Faktoren, wie die Komplexität und Fehleranfälligkeit der Daten, die an- 
gezielte Datenqualität sowie die erwartete Datennutzung berücksichtigt werden (Lück/Land- 
rock 2014: 405; Jensen 2012: 16f.). 

So erfordern komplexe Daten, die z.B. im Ergebnis der Kumulation von Erhebungswellen 
oder der Integration nationaler Daten entstehen, eine umfassendere Dokumentation. 
Gleichermaßen lassen komplizierte Filterführungen oder eine Reihe offener Fragen im Erhe- 
bungsinstrument einen höheren Aufwand für die Variablencodierung und Überprüfung der 
Daten erwarten. Demgegenüber kann der Aufwand für die Datenaufbereitung verringert wer- 
den, wenn die Antworten der Befragten bereits während der Datenerhebung standardisiert 
und überprüft werden können. Darüber hinaus ermöglichen die Dokumentation der einzelnen 
Prüfschritte sowie der Transfer der Prüfergebnisse im Projektverlauf, nachfolgende Bearbei- 
tungsschritte gezielt vorzunehmen und redundante Datenmodifikationen einzuschränken. 
Das wiederum kann die Gefahr neuer Datenfehler, die generell bei der Überprüfung und Be- 
arbeitung der Daten entstehen können, oder auch die Gefahr einer verzögerten Bereitstellung 
der Analysefiles für die Forschung verringern (Survey Research Center 2016: 654). Um eine 
gute Balance zwischen der Datenqualität, der Projektzeit und den Ressourcen finden zu kön- 
nen, sollte demzufolge bereits zu Projektbeginn entschieden werden, welche Arbeitsschritte 
in welchen Phasen des Projekts durchzuführen sind (Schäfer et al. 2006: 1). 

Im Folgenden geben wir eine kurze Beschreibung der in Abbildung 6.1 beschriebenen 
Phasen des Lebenszyklusmodells und setzen hierbei den Schwerpunkt auf ihre besondere 
Bedeutung für die Datenaufbereitung und Dokumentation. 
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6.2.1 Projektplanung: Projektempfehlungen und Erhebungsinstrument 


Geht man von Best-Practice-Beispielen, wie z.B. dem European Social Survey (ESS), aus, 
dann werden in der Planungsphase die Regeln, Standards und Prozeduren für die folgenden 
Phasen der Erhebung, Aufbereitung und Dokumentation sowie der Bereitstellung der Daten 
ausgearbeitet. Das Projektteam entwickelt das Erhebungsinstrument und legt damit bereits 
die Grundlage für die nachfolgenden Schritte der Codierung und Überprüfung der Variablen. 
Darüber hinaus wird festlegt, welche Daten und Dokumentationen produziert werden, wel- 
che Regeln für die Codierung, Überprüfung, Bearbeitung und Dokumentation der Daten an- 
zuwenden sind und welche projektspezifischen bzw. internationalen Standards genutzt wer- 
den sollen (Kolsrud et al. 2010). In Kooperation mit einem Datenarchiv werden geeignete 
Publikationskanäle für die Daten vereinbart, um ggf. erforderliche Anonymisierungsschritte 
frühzeitig bedenken zu können. Die hierbei entstehenden Projektempfehlungen haben das 
Ziel, den Entstehungs- und Aufbereitungsprozess der Daten transparent zu machen und vor- 
genommene Datenmodifikationen auch nach Abschluss des Projekts nachvollziehen zu kön- 
nen (vgl. GESIS Survey Guidelines (GESIS 2016); Guidelines for Best Practice in Cross- 
cultural Surveys (Survey Research Center 2016)). 


6.2.2 Datenerhebung: Rohdatensatz und Dokumentation 


In der Erhebungsphase werden die Antworten der Befragten erhoben und zumeist durch ein 
Erhebungsinstitut in ein Datenformat gebracht, das der Struktur des Erhebungsinstruments 
entspricht. Je nach Erhebungsmethode werden die Antworten in digital programmierten Fra- 
gebögen erfasst (computer-assisted interview, CAI) oder von Hand in gedruckten Fragebö- 
gen eingegeben (paper and pencil interview, PAPI bzw. schriftliche Befragung). Letzteres 
macht einen weiteren Schritt der digitalen Erfassung der Antworten der Befragten erforder- 
lich. In kleineren Projekten kann dieser Schritt durch die Erstellung einer Datenmatrix und 
die manuelle Dateneingabe mit Hilfe von Dateneditoren erfolgen. Hilfreiche Tools werden 
von Statistiksoftware wie SPSS, STATA oder SAS bereitgestellt (Lück/Landrock 2014: 
400f.; Jensen 2012: 23). Im Ergebnis dieser Phase entsteht das Rohdatenfile. Die Daten wer- 
den zusammen mit methodischen Informationen über den Erhebungs- und Erfassungsprozess 
und ggf. Paradaten? an die Phase der Datenaufbereitung übergeben. 


6.2.3 Datenaufbereitung: Arbeits- und Analysefiles und Dokumentation 


Während der Datenaufbereitung werden die Rohdaten weiter codiert, überprüft, bereinigt 
und dokumentiert. Ein Projekt kann sich hierbei das Ziel stellen, möglichst fehlerfreie und 
gut dokumentierte Daten zu generieren bzw. darüber hinausgehend die Daten durch weitere 
Schritte der Standardisierung und Harmonisierung aufzuwerten. So werden z.B. die Einzel- 
datensätze, die bei zeit- oder ländervergleichenden Erhebungen entstehen, weiter technisch 
standardisiert und inhaltlich harmonisiert. Die Verwendung einheitlicher Variablennamen 
und Werte für die Fragen im Erhebungsinstrument bzw. die Harmonisierung der zeit- oder 


1 Der European Social Survey (ESS) ist eine auf wissenschaftlichen Standards beruhende länderübergreifende 
Erhebung, die seit 2001 alle zwei Jahre europaweit durchgeführt wird. 

2 Bei Paradaten handelt es sich um Daten, die im Prozess der Erhebung von Umfragedaten entstehen. Je nach 
Erhebungsmodus sind dies z.B. die Anzahl und das Ergebnis der Kontaktaufnahmen mit den zu befragenden 
Personen, der Zeitpunkt und die Dauer der Befragung, die Beschreibung der Wohngegend bzw. des Haushalts 
ebenso wie Anmerkungen zum individuellen Antwortverhalten (vgl. Felderer/Birg/Kreuter 2014). 
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länderspezifisch erhobenen Variablen ermöglicht ihre anschließende Integration in einen Ge- 
samtdatensatz. Gleichermaßen können Datentransformationen vorgenommen werden, um 
die Nutzbarkeit der Daten sowie ihre Vergleichbarkeit innerhalb oder zwischen Datenkollek- 
tionen zu verbessern. Die in dieser Phase entstehenden internen Master-Arbeitsfiles sind das 
Ergebnis aller vorgenommenen Bearbeitungsschritte und bilden die Grundlage für die zu ge- 
nerierenden Analysefiles. Diese stellen eine zumeist reduzierte Datensatzversion dar, in der 
z.B. interne Hilfsvariablen gelöscht und die Daten für eine Nachnutzung durch Dritte stärker 
anonymisiert sind. Die Datenfiles werden zusammen mit der Dokumentation der vorgenom- 
menen Arbeitsschritte und Datenmodifikationen für eine nachhaltige Sicherung bzw. breite 
Nutzung an ein Datenarchiv oder Repositorium weitergegeben. 


6.2.4 Bereitstellung: Analysefiles, Dokumentation und Metadaten 


Datenarchive oder Repositorien, die am Ende des Lebenszyklusmodells stehen, können na- 
turgemäß nur die Daten und Informationen für eine breitere Nutzung zur Verfügung stellen, 
die im Projektverlauf generiert wurden und nach Projektabschluss noch verfügbar sind. Dem- 
gegenüber stehen Projekte oft vor der Herausforderung, große Mengen an Dateien organisie- 
ren bzw. die Verluste an Projektwissen infolge des Wechsels im Projektteam kompensieren 
zu müssen. Eventuelle Versäumnisse im projektinternen Forschungsdatenmanagement zei- 
gen sich spätestens bei der Zusammenstellung der Daten und Dokumentation, die für eine 
breitere Nachnutzung erforderlich sind. Entsprechen diese nicht den Qualitätserfordernissen 
und Standards z.B. eines Datenarchivs oder wurden Datenschutzerfordernisse nicht einge- 
halten, können auch nach Projektabschluss noch Arbeitsschritte erforderlich werden. 


6.3 Schritte der Variablencodierung 


Sind die im Projektverlauf aufzubauenden Datenfiles geplant, kann im Weiteren vereinbart 
werden, welche Variablen sie enthalten sollen und welche Codierschritte hierfür erforderlich 
sind. Das ist die Aufgabe der Variablencodierung, in deren Ergebnis Datensätze mit eindeutig 
definierten Variablen entstehen. Damit wird für die weitere Bearbeitung und Nutzung der 
Daten festgelegt, „welcher Eintrag in der Datenmatrix welche Information repräsentiert“ 
(Lück/Landrock 2014: 399). Hierfür werden Regeln und Standards vereinbart, die die Daten 
nutzbar und ggf. vergleichbar machen und den Datenaufbereitungsprozess weniger fehleran- 
fällig gestalten. Die Regeln können sich generell auf den Datenaufbereitungsworkflow be- 
ziehen bzw. unmittelbar auf die Struktur der Daten und Metadaten in einem Datensatz ge- 
richtet sein. 

Generelle Regeln definieren z.B. die Bearbeitungsstufen, die die Daten durchlaufen sol- 
len. Diese können von der Überprüfung und Bearbeitung der Daten über ihre Anonymisie- 
rung bis hin zur Integration von Einzeldatensätzen reichen. Damit werden bereits die Grund- 
lagen für den Datenaufbereitungsworkflow und die Schritte der Variablencodierung gelegt. 
Darüber hinaus kann vereinbart werden, dass die Analysefiles alle verfügbaren empirischen 
Informationen enthalten und der Grad der Informationstiefe der Daten möglichst dem der 
Rohdaten entspricht. Ist z.B. eine Kategorisierung von Informationen für Variablen wie Alter 
oder Einkommen erforderlich, werden neben den Variablen mit höherem Aggregationsni- 
veau die detaillierten Quellvariablen in den Daten behalten und zugänglich gemacht. Enthal- 
ten die Daten potentiell datenschutzrelevante Informationen, wie z.B. regionale Kennziffern 
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oder detaillierte sozio-demographische Variablen, werden diese erst in den Analysefiles, die 
über die entsprechenden Publikationswege für Dritte zugänglich gemacht werden, gelöscht. 
Zusätzlich kann für die Datenfiles innerhalb eines Projekts oder zwischen Projekten verein- 
bart werden, die Codierung der Variablen sowie ihre Beschreibung mit Metadaten nach ein- 
heitlichen Regeln vorzunehmen. Die Anwendung standardisierter Schemata, wie z.B. eines 
Systems negativer Werte für die Definition der fehlenden Werte, vereinfacht erfahrungsge- 
mäß den Aufbau und die Dokumentation der Daten, reduziert die Fehlerquellen während der 
Datenaufbereitung und erhöht die Transparenz für die Datennutzenden. 

Konkrete Codierregeln werden vereinbart und angewendet, um die Struktur eines Daten- 
satzes, seine Variablen und Werte sowie die beschreibenden Metadaten (Variablen- und Wer- 
telabels) zu definieren. Hierfür werden bereits im Erhebungsinstrument den Fragen eindeu- 
tige Variablennamen und den Antwortkategorien der geschlossenen Fragen eindeutige Werte 
zugewiesen. Das Erhebungsinstrument bildet damit den Master für die Erstellung eines Setup 
File (oder Codeplans), auf dessen Grundlage die Struktur des Rohdatenfiles definiert werden 
kann. Bei den einzelnen Schritten der Variablencodierung kann dann von bestehenden und 
in der Projektpraxis erprobten Regeln ausgegangen werden. Sie helfen im unmittelbaren Pro- 
jektkontext, geeignete Variablennamen abzuleiten, die Skalenniveaus und Formate zu defi- 
nieren, aussagekräftige Variablen- und Wertelabels aufzubauen sowie ein passendes Codier- 
schema für die fehlenden Werte zu bestimmen. Für detaillierte Zusammenstellungen entspre- 
chender Regeln und Standards verweisen wir auf Netscher/Eder (2018); Ebel und Trixa 
(2015), Lück und Landrock (2014), Jensen (2012) sowie Survey Research Center (2016). 


Abbildung 6.2: Schritte der Variablencodierung 


Interner Internes Scientific Use File Public Use File 
Rohdatensatz Master-Arbeitsfile (Nutzungsvertrag) (Datendownload) 
1 Inhaltliche Variable Inhaltliche Variable Inhaltliche Variable Inhaltliche Variable 
2  Sozio-demographische Standardisierte sozio- 3 Standardisierte sozio- 4 Standardisierte sozio- 
Variable demographische Variable demographische Variable demographische Variable 
> Beruf (offen erfragt) > Beruf (offen erfragt) — > Gelöscht 
—» > Beruf: ISCO 4, 3, 2 digits > Beruf: ISCO 4, 3,2 digits —» > Beruf: ISCO 2 digits 
> Region (offen erfragt) > Region (offen erfragt) — > Gelöscht 
> Region: NUTS 3 —> > Region: NUTS 3, 2,1 > Region: NUTS 3, 2,1 => > Region: NUTS1 
5 > Konstruierte Variablen > Konstruierte Variablen > Konstruierte Variablen 
> Technische Variablen > Technische Variablen > Technische Variablen 
> Interne Hilfsvariablen —> > Gelöscht 


Länder-spezifische Variable 6 Harmonisierte Variable Harmonisierte Variable Harmonisierte Variable 

> Bildung _, > Bildung: ISCED97 > Bildung: ISCED97 > Bildung: ISCED97 

> Religion > Religion: Projektstandard > Religion: Projektstandard > Religion: Projektstandard 

\ Standardisierte lander- Standardisierte lander- Standardisierte lander- 

spezifische Quellvariable spezifische Quellvariable spezifische Quellvariable 
(ISO-3166) (ISO-3166) (ISO-3166) 
> Bildung > Bildung > Bildung 
> Religion > Religion > Religion 


Quelle: Eigene Darstellung 


Ausgehend hiervon wird im Weiteren festgelegt, wann im Projektverlauf die Variablen zu 
generieren und welche Codierschritte hierfür erforderlich sind. Variablenübersichten in 
Excel-Format haben sich in der Projektpraxis hierfür bewährt. Sie unterstützen die Organi- 
sation dieses Schrittes und schaffen die erforderliche Transparenz im Projektverlauf. Abbil- 
dung 6.2 zeigt einen Ausschnitt aus einer Variablenübersicht, die für die European Values 
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Study (EVS) 2008? aufgebaut wurde. Das Beispiel geht von einem einfachen nationalen Da- 
tensatz aus und zeigt vier Bearbeitungsstufen eines Datensatzes sowie die jeweils enthaltenen 
bzw. aufzubauenden Variablen. Es beschreibt exemplarisch sechs Schritte der Variablenco- 
dierung (EVS 2016), die gleichermaßen auf andere Projekte anwendbar sind. 

Das erste Beispiel in der Abbildung bezieht sich auf die inhaltlichen Variablen in einem 
Datensatz. Der überwiegende Teil dieser Variablen liegt bereits im Rohdatenfile in einer 
Form vor, die nachfolgende Datenanalysen unterstützt. Weitere Transformationsschritte kön- 
nen notwendig werden, wenn z.B. die fehlenden Werte erst nachträglich in ein einheitliches 
Schema codiert werden (Survey Research Center 2016: 637ff.). 

Das zweite Beispiel beschreibt die Codierung soziodemographischer Variablen wie Beruf 
bzw. berufliche Tätigkeit oder Region. Werden die Antworten der Befragten als Textinfor- 
mationen erhoben, müssen diese in nachfolgenden Schritten standardisiert werden. Für die 
Variable Region erfolgt dies bereits während der Datenerhebung, indem die Informationen 
in den NUTS-Standard der amtlichen Statistik für die Europäische Union (NUTS 2006) trans- 
formiert werden. Auf dieser Grundlage werden in späteren Codierschritten weitere Variablen 
auf höherem Aggregationsniveau generiert. 

Die Beispiele drei und vier zeigen Schritte der Datenanonymisierung, die erforderlich 
werden, um eine Re-Identifizierung der Befragten zu verhindern. Wie in Kapitel 4.3 beschrie- 
ben, wird hierfür die Informationstiefe der Variablen Beruf und Region an die gewählten 
Publikationswege für die Daten angepasst. In Beispiel drei werden Variablen mit detaillierten 
Textinformationen aus den Analysefiles gelöscht. Ein geschützter Zugangsweg mit Daten- 
nutzungsvertrag kann dann gewählt werden, um die Daten mit den standardisierten, aber 
noch immer sehr detaillierten Angaben zu Beruf und Region bereitzustellen (Scientific Use 
File). Darauf aufbauend zeigt Beispiel vier, wie die Informationstiefe der Daten weiter ver- 
ringert wird, um nur Informationen mit höherem Aggregationsniveau in dem Analysefile zu 
belassen. Das entstehende Public Use File kann dann über Retrieval-Systeme mit direkten 
Downloadmöglichkeiten für eine breite Nutzung zugänglich gemacht werden. 

Beispiel fünf bezieht sich auf neu konstruierte und technische Variablen, die die Daten in 
eine einfacher nutzbare Form bringen sollen (Lück/Landrock 2014: 402f.). Hierzu gehören 
klassierte Variablen (z.B. für das Alter), dichotome Variablen, die für Fragen mit Mehrfach- 
antworten generiert werden, sowie technische und administrative Variablen (wie Identifika- 
tions- oder Versionsnummern). 

Beispiel sechs ist auf die Codierung länderspezifischer Fragen gerichtet, die erforderlich 
sind, um z.B. Bildungsniveaus in unterschiedlichen Schul- und Ausbildungssystemen oder 
Religionszugehörigkeit adäquat erfassen zu können. Für die Harmonisierung der Bildungs- 
variable wird hier die International Standard Classification of Education (ISCED 2011) an- 
gewendet und für die Religionsvariable ein kollektionsspezifischer Standard. Um die vorge- 
nommenen Harmonisierungsschritte später replizieren zu können, werden ergänzend zu den 
harmonisierten Variablen standardisierte länderspezifische Quellvariablen zur Verfügung 
gestellt. 

Eine Variablenübersicht, wie in Abbildung 6.2 dargestellt, kann zu Beginn eines Projekts 
aufgebaut und sollte im Projektverlauf als Arbeitsgrundlage kontinuierlich aktualisiert wer- 
den. Sie kann nach Projektabschluss zusammen mit dem Erhebungsinstrument sowie der Do- 
kumentation der Codierschritte als eine zusätzliche Informationsquelle für Nachnutzende der 
Daten bereitgestellt werden. 


3 Die European Values Study (EVS) ist eine transnationale empirische Langzeitstudie, die seit 1981 in einem 
Zyklus von neun Jahren durchgeführt wird. Der beschriebene Workflow wurde für die Daten der vierten Erhe- 
bungswelle, EVS 2008, aufgebaut und an die Erfordernisse der fünften Erhebungswelle, EVS 2017, angepasst. 
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6.4 Prüfung und Behandlung von Datenfehlern 


Ausgehend von den definierten Datensätzen und den in ihnen enthaltenen Variablen können 
die erforderlichen Prozeduren für die Überprüfung der Daten und die Behandlung von Da- 
tenfehlern geplant werden. Typische Quellen für Datenfehler lassen sich in den verschiede- 
nen Projektphasen, beginnend mit der Definition der zu befragenden Population und des 
Samples bis hin zur Analyse der Daten und der Interpretation der Ergebnisse, identifizieren 
(Schäfer et al. 2006: 1ff.). In den folgenden Ausführungen beschränken wir uns auf Daten- 
fehler, die ihre Ursache im Erhebungsinstrument haben können, während der Datenerhebung 
oder -erfassung produziert wurden bzw. das Ergebnis des Datenaufbereitungsprozesses selbst 
sind (s. auch Braun 2014: 760; Pötschke 2010: 55). Der Prozess der Fehlersuche ist dabei 
vorrangig auf „unmögliche, unwahrscheinliche und widersprüchliche Werte“ in den Daten 
(Lück 2014: 403) gerichtet, die die Analyseergebnisse verfälschen können. 

Analog zur Variablencodierung werden auch hier Regeln vereinbart, die im Projektver- 
lauf entscheiden lassen, welche Prüfprozeduren wann einzusetzen sind. Prüfprozeduren wer- 
den generell angewendet, um die Daten auf mögliche Fehlerarten hin zu überprüfen. Ihr wie- 
derholter Einsatz wird erforderlich, um Fehler infolge vorgenommener Datenmodifikationen 
aufzudecken oder die Inhalte verschiedener Datensatzversionen zu vergleichen. Wurden po- 
tentielle Fehler in den Daten gefunden, müssen in weiteren Schritten die Quellen der Fehler 
analysiert und geeignete Maßnahmen der Fehlerbehandlung angewendet werden. 


6.4.1 Schritt 1: Überprüfung der Daten und Metadaten 


In diesem Schritt werden formale und logische Prüfprozeduren angewendet, die sich auf die 
einzelnen Variablen, auf Variablenkombinationen oder auf Datensätze beziehen können. In 
Schaukasten 6.1 sind häufig auftretende Fehler zusammengestellt, die erfahrungsgemäß Ge- 
genstand der Datenüberprüfung sind (Survey Research Center 2016: 65 1ff.; Lück/Landrock 
2014: 405ff.; Eurofound o.J.: 4f.). Die Variablen eines Datensatzes werden z.B. nach System 
Missing Values, Wild Codes oder Outliers untersucht. Verschiedene Kombinationen von Va- 
riablen werden gebildet, um Antwortmuster der Befragten auf Konsistenz und Plausibilität 
hin zu überprüfen. Auf der Ebene der Datensätze werden die erwarteten Fall- und Variablen- 
zahlen bzw. die Struktur des Datensatzes kontrolliert. 

Die Position der Prüfprozedur im Projektworkflow und die Art der Datenfehler entschei- 
den darüber, inwieweit visuelle Datenchecks mit einfachen oder komplexen Syntax-Checks 
verbunden werden können und welche Maßnahmen der Fehleranalyse erforderlich sind: 


Visuelle Checks werden vorgenommen, um die Übereinstimmung zwischen Erhebungsinstrument 
und Datensatz zu überprüfen, Variablen- und Wertelabels, Formate und Messniveaus der Variablen 
zu kontrollieren sowie Auffälligkeiten in den Daten zu identifizieren. 

Einfache und komplexe Syntax-Checks ermöglichen es, mit Hilfe von Häufigkeitsverteilungen, 
Kreuztabellen, deskriptiven Statistiken oder programmierten Prüfroutinen die Daten auf benutzerde- 
finierte fehlende Werte, System Missing Values und Wild Codes hin zu überprüfen. Ebenso können 
Filterinkonsistenzen, Inkonsistenzen innerhalb einer Item-Batterie bzw. logisch ausgeschlossene Be- 
ziehungen zwischen Variablen aufgedeckt sowie generell Datenmodifikationen überprüft werden. 
Zusätzliche Kontextinformationen, wie z.B. Bevölkerungsstatistiken, sind für Plausibilitätskontrollen 
soziodemographischer Verteilungen in den Daten sowie für die Überprüfung von Werten erforder- 
lich, die außerhalb des realistischen Bereichs liegen. Sie unterstützen darüber hinaus die Kontrolle 
der Daten hinsichtlich sensibler Informationen über die befragte Person. 
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Schaukasten 6.1: Überblick über potentielle Datenfehler 


Ebene Die Prüfung der Daten bezieht sich auf 


nicht eindeutige IDs für Befragte, Interviewer, Datensätze 

fehlerhafte Variablennamen und Werte sowie Variablenlabels/Werteetiketten 
Fehler in Formaten, Messniveaus, Missing Value Definitionen 

Wert außerhalb des realistischen Bereichs (Outliers) 

Wert außerhalb des gültigen Bereichs (Wild codes) 

ungültige fehlende Wert 


Variable 


Inkonsistenzen im Antwortverhalten innerhalb des Fragebogens 
Filterführungsfehler 

duplizierte Fälle 

unvollständige Interviews 

Werte, die im Widerspruch zu Kontextinformationen oder Paradaten stehen 
ungewöhnliche Antwortmuster 


befragte Per- 
son 


fehlerhafte Anzahl der Variablen und/oder Fälle im Datensatz 
Abweichungen in der Reihenfolge der Variablen im Datensatz und Fragebogen 


Datensatz 


Quelle: Eigene Darstelung 


6.4.2 Schritt 2: Analyse der Quellen potentieller Datenfehler 


Werden potentielle Fehler in den Daten identifiziert, müssen die möglichen Ursachen hierfür 
geklärt werden. Auf dieser Grundlage können geeignete Maßnahmen der Fehlerbehandlung 
gewählt werden. In Schaukasten 6.2 sind mögliche Quellen potentieller Datenfehler aufge- 
führt. Sie lassen sich auf die verschiedenen Phasen des Lebenszyklusmodells zurückführen 
und können das Erhebungsinstrument und den Übersetzungsprozess, die Befragungssituation 
und Datenerfassung sowie die Datenaufbereitung betreffen. 


Schaukasten 6.2: Mögliche Quellen potentieller Datenfehler in den Projektphasen 


Projektphase Mögliche Quellen für Datenfehler 


Planungsphase Erhebungsinstrument: fehlende/sich überschneidende Antwortkategorien, kom- 
plexe oder fehlerhafte Filterführung 


Übersetzungsprozess: fehlerhafte Übersetzung, nicht vergleichbare Fragestel- 
lung, 
gedrehte Skalen, fehlende/zusätzliche Antwortkategorien 


Datenerhebung/ Befragte oder Interviewer: unzutreffende bzw. bewusst falsche Angaben 
Datenerfassung 


Interviewer: bewusste Fälschung bzw. Duplikation von Fällen 


Codierer: fehlerhafte Codierung offener Angaben 


Datenerfassung: technische und manuelle Fehler, mehrfache Erfassung von Fäl- 
len 


Datenaufbereitung « Fehlerhafte Codierung während der Fehlersuche und Fehlerbehandlung 
der Standardisierung und Harmonisierung 

der Generierung neuer Variablen 

der Integration/Kumulation der Daten 

der Anonymisierung der Daten 


Quelle: Eigene Darstellung 
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Der Aufwand für den Schritt der Fehlersuche und Fehlerbehandlung lässt sich verringern, 
wenn z.B. das Erhebungsinstrument getestet wurde. Ist es zudem möglich, die Daten zeitnah 
zu ihrer Entstehung zu überprüfen, kann häufig auf die Quelle der Informationen zurückge- 
griffen werden (Lück/Landrock 2014: 406f.). Das ermöglicht es erfahrungsgemäß, Fehler 
mit geringerem Aufwand aufzuklären und Informationsverluste in den Daten zu vermeiden. 
Dementsprechend werden in computer-assisted-Interviews Prüfprozeduren direkt in den di- 
gital programmierten Fragebogen implementiert. Bei unzulässigen bzw. inkonsistenten Ant- 
worten werden den interviewenden bzw. befragten Personen Fehlermeldungen angezeigt, die 
sie bereits während der Befragungssituation überprüfen und ggf. korrigieren können (Survey 
Research Center 2016; Eurofound and GfK EU3C o.J.: 50ff.). Knüpft bei paper-and-pencil- 
Interviews oder schriftlichen Befragungen die Datenüberprüfung zeitlich an die Datenerhe- 
bung oder Datenerfassung an, kann ggf. auf die Erhebungsinstrumente zurückgegriffen wer- 
den, um z.B. fehlende Werte sowie Werte, die außerhalb des gültigen bzw. realistischen Wer- 
tebereichs liegen, zu überprüfen. Werden dagegen potentielle Datenfehler erst in einer zeit- 
lich nachgelagerten Phase der Datenaufbereitung entdeckt, lassen sie sich z.T. nur noch 
schwer aufklären. 

Prüfprozeduren sollten demzufolge, und sofern die Projektressourcen es erlauben, mög- 
lichst dann implementiert werden, wenn die originalen Erhebungsinstrumente bzw. die be- 
fragten, interviewenden, codierenden bzw. aufbereitenden Personen noch verfügbar sind 
(Survey Research Center 2016: 636). 


6.4.3 Schritt 3: Behandlung und Dokumentation der identifizierten Datenfehler 


Wurden potentielle Fehler in den Daten identifiziert, werden die vereinbarten Regeln der 
Fehlerbehandlung angewendet. Wie in Abbildung 6.3 dargestellt, können potentielle Daten- 
fehler nach ihrer Überprüfung als korrekt akzeptiert, in einen anderen Wert recodiert oder 
geflaggt werden. Flag-Variablen zeigen das Vorliegen (Wert = 1) bzw. das Nicht-Vorliegen 
(Wert = 0) eines potentiellen Fehlers an (Kveder/Galico 2008: 6f.; Kampmann et al. 2014). 
Dadurch wird die Entscheidung, wie konkret mit dem jeweiligen Fehler in der Datenanalyse 
umgegangen werden soll, den Datennutzenden überlassen. 


Abbildung 6.3: Möglichkeiten der Behandlung potentieller Datenfehler 


Fehlersuche 


= y A 
Aufbereitungsstandard > Prüfprozedur » Akzeptieren Korrigieren Flaggen 
X A s 


Dokumentation 


Quelle: Eigene Darstellung (siehe auch Kampmann et al. 2014) 


Die Regeln für die Behandlung potentieller Fehler werden projektspezifisch definiert. Nach 
Lück und Landrock (2014: 406) sollte hierbei zwischen zweifelsfrei und nicht zweifelsfrei 
nachweisbar fehlerhaften Werten unterschieden werden: 


Zweifelsfrei fehlerhafte Werte sollten korrigiert werden, wenn der wahre Wert mit hoher Wahr- 
scheinlichkeit nachgewiesen werden kann. 
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Zweifelsfrei fehlerhafte Werte sollten geléscht bzw. durch einen Missing Value ersetzt werden, wenn 
der wahre Wert nicht mit hoher Wahrscheinlichkeit nachgewiesen werden kann. 

Kann fiir einen Wert nicht zweifelsfrei nachgewiesen werden, dass er fehlerhaft ist, sollte er in dem 
Datensatz mit Hilfe von Flag-Variablen markiert werden. 


Ob Fehler in den Daten jedoch nur dokumentiert oder auch behandelt werden, kann z.B. von 
der Zahl der betroffenen Fälle abhängig gemacht werden. Sind mehr als nur einzelne Fälle 
betroffen, wird das Datenproblem dokumentiert und ggf. geflaggt, um damit die ursprüngli- 
che Qualität der erhobenen Daten zu erhalten und sichtbar zu machen (Kolsrud et al. 2010: 
64). So wird bei der European Value Study beispielsweise geflaggt, sobald (mehr als) 1 % 
der Stichprobe betroffen sind. Schaukasten 6.3 enthält einzelne Beispiele für Codierregeln, 
die für diese Datenkollektion aufgestellt wurden (EVS 2017). Zusammenstellungen über ver- 
schiedene Prüfverfahren und Entscheidungsregeln finden sich auch bei Lück und Landrock 
(2014: 407) und Jensen (2012). 


Schaukasten 6.3: Beispiele für Codierregeln in einer multinationalen Umfrage 


Univariate Codier-Regeln Recodieren in ‚keine Angabe’ und dokumentieren 


+ Wert außerhalb des gültigen Bereichs (Wild codes) 
+ Wert außerhalb des realistischen Bereichs (Outliers) 


Multivariate Codier-Regeln Dokumentieren 


+ widersprüchliche Antworten auf verschiedene Fragen 
e nicht-plausible, aber logisch mögliche Werte des Befragten 


Regeln für Filterfragen Rekonstruieren/recodieren und dokumentieren 
e Missing Values nach Filterfragen werden recodiert: in trifft nicht zu, wenn 
der Befragte nicht gefragt werden sollte; 
e in keine Angabe, wenn der Befragte gefragt werden sollte 


Quelle: Eigene Darstellung 


Die Dokumentation des Prozesses der Fehlersuche und Fehlerbehandlung hat Bedeutung so- 
wohl für Forschende, die die Daten erheben, als auch für diejenigen, die sie nachnutzen wol- 
len. Primärforschenden hilft sie, ähnliche Fehlerquellen in nachfolgenden Erhebungen zu 
vermeiden (Survey Research Center 2016: 651f.). Für Sekundärforschende schafft sie Trans- 
parenz über die Qualität der vorliegenden Daten und ermöglicht, Datenmodifikationen nach- 
zuvollziehen bzw. die Daten gezielt nach weiteren potentiellen Fehlern zu untersuchen (vgl. 
dazu Kapitel 8.1). Die Sicherung der Rohdaten bzw. die Bereitstellung eines Datensatzes, in 
dem die identifizierten Datenfehler markiert sind, erlaubt darüber hinaus, den potentiellen 
Wert des Datenaufbereitungsprozesses zu überprüfen (Kveder/Galico 2008: 3ff.). 


6.5 Entwicklung eines Workflows der Datenaufbereitung 


In den bisherigen Ausführungen wurden die im Projektverlauf zu generierenden Datensätze 
geplant, die Variablen definiert und hieraus Regeln und Prozeduren für die Variablencodie- 
rung sowie die Datenüberprüfung abgeleitet. Im Folgenden wird ein Workflow vorgestellt, 
der Forschenden helfen soll, die einzelnen Schritte in die Projektpraxis umzusetzen. Der 
Workflow in Abbildung 6.4 wurde für die Aufbereitung eines einfachen Datenfiles entwi- 
ckelt. Er basiert auf einem System von Datenfiles, Syntax-Files und Ordnern und lässt sich 
an unterschiedliche Projekterfordernisse anpassen. So können kleinere Projekte ggf. weniger 
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Prüfschritte benötigen und müssen komparative Projekte weitere Schritte der Harmonisie- 
rung und Integration der Daten einbauen. Beispiele hierzu finden sich bei Harzenetter und 
Wronski (2015: 10ff.), Kampmann et al. (2014) sowie bei Brislinger et al. (2011). Der ent- 
stehende Datenaufbereitungsworkflow setzt sich aus drei Hauptbausteinen zusammen: 


1. eine Ordnerstruktur, die eine strukturierte Ablage der Daten und Dokumentationen ermöglicht, 

2. Datenfiles, die die einzelnen Schritte der Erfassung, Bearbeitung und Publikation der Daten sichtbar 
machen, sowie 

3. Syntax-Files, die die geplanten Schritte der Variablencodierung, Fehlersuche und Fehlerbehandlung 
ausführen. 


Ausgehend von dem in Abbildung 6.1 beschriebenen Lebenszyklusmodell beginnt der Work- 
flow mit den Projektempfehlungen aus der Phase der Projektplanung, beinhaltet die Rohda- 
ten und Informationen, die aus der Datenerhebung übergeben werden, und endet mit den 
Analysefiles, die für die sekundäranalytische Nutzung über ein Repositorium oder Datenar- 
chiv bereitgestellt werden (s. Kapitel 7.4). Hierbei werden, wie oben ausgeführt, die Dateien 
in einer Ordnerstruktur abgelegt, definieren die Datenfiles die Struktur des Datenaufberei- 
tungsworkflows und schaffen die Syntax-Files Transparenz über die einzelnen Bearbeitungs- 
schritte. 


6.5.1 Aufbau der Ordnerstruktur 


Abbildung 6.4: Aufbau eines Datenaufbereitungsworkflows 


Ordner für Dokumente aus der Planungsphase Kommentierte Syntax 
- Projektempfehlungen - Erstellung des Datenfiles: FILE-NAMEN 
= Erhebungsinstrument - Rohdatenfile: FILE-NAMEN 


= Quelldokumente: FILE-NAMEN 

- Setup Datum: YYMMTT 

- Bearbeiter: NAME 

- eingesetztes Erhebungsinstrument z Speicherort: PFAD-NAME 

- Rohdaten, Paradaten - Version History: Veränderungen zwischen Versionen 
- Feld- oder Methodenbericht 


Ordner für Lieferung aus der Datenerhebung 


Ordner für den Aufbereitungsworkflow Internes Rohdatenfile (Schritt 1) 


1 - Sicherung des Rohdatenfiles vor Überschreiben 
- Überprüfung: Anzahl der Fälle und Variablen 
Erstellung des internen Master-Arbeitsfiles (Schritt 2) 
Rohdatenfile 
- visuelle Checks: Übereinstimmung Erhebungsinstrument und 
Daten, Formate, Labels, fehlende Variablen/Werte 
- Konstruktion administrativer/technischer Variablen 
- Definieren der Variablenlisten für Prüfprozeduren 
Y - Konsistenzprüfungen 
o doppelte Befragten-Nummern 
Master-Arbeitsfile o Wild Codes, Outliers 
o Filterführung, Item-Batterien und Mehrfachnennungen 
o Gewichtungsvariablen 
- Überprüfung der fehlenden Werte 
o identifizieren/recodieren der System Missings 
° standardisieren der Werte und Wertelabels 
- Datensatzstruktur: Variablen Reihenfolge, Formate, Messniveaus 


Scientific Use File Public Use File Erstellung der Analysefiles fiir die Forschung (Schritt 3) 
(Nutzungsvertrag) (Datendownload) 


Syntax-File 2 


Interne Arbeitsfiles 


Syntax-File g 


Nutzer-Datenfiles 


- Umsetzung des Anonymisierungskonzepts für Publikationsweg: 
Nutzungsvertrag oder Datendownload 

- abschließende Überprüfung der Analysefiles: 
o Anzahl der Fälle und Variablen, fehlende Werte, Labels 


Quelle: Eigene Darstellung in Anlehnung an Brislinger et al. (2011) 
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Datei-Systeme mit einer bereits zu Beginn des Projekts definierten Ordnerstruktur vereinfa- 
chen erfahrungsgemäß die Ablage und das Auffinden der Daten und Dokumentationen, 
schaffen Transparenz und helfen Informationsverluste zu vermeiden. Wie in Kapitel 5 be- 
schrieben kann eine Ordnerstruktur, die entlang des Lebenszyklus eines Projekts aufgebaut 
wird, am ehesten den Erfordernissen des Daten- und Informationsmanagements gerecht wer- 
den. Dem folgend sind in Abbildung 6.4 exemplarisch Ordner für die Projektempfehlungen 
aus der Planungsphase sowie die Daten und Dokumentationen aus der Datenerhebungsphase 
angelegt. Der Ordner Aufbereitungsworkflow enthält die Daten und Informationen, die wäh- 
rend der Datenaufbereitung selbst bearbeitet oder neu erstellt werden. Seine weitere Unter- 
gliederung in Unterordner ermöglicht es, die generierten Datenfiles strukturiert abzulegen. 
Das Dateisystem, das hierbei schrittweise entsteht, macht die produzierten Daten, Dokumen- 
tationen und Prozessinformationen für alle Projektbeteiligten sichtbar und zugänglich. Am 
Ende eines Projekts bildet es eine gute Grundlage für die Auswahl der Dateien, die im Pro- 
jektkontext aufzubewahren sind bzw. an ein Datenarchiv oder Repository übergeben werden 
müssen. 


6.5.2 Aufbau der Datenfiles 


Wie bereits ausgeführt, können die im Datenaufbereitungsprozess zu generierenden Daten- 
files nach ihren Bearbeitungsstufen und Aufgaben bei der Realisierung der Projektziele un- 
terschieden werden. Die Rohdatenfiles aus der Datenerhebung werden gesichert und schaffen 
Transparenz tiber den Datenaufbereitungsprozess, indem vorgenommene Datenmodifikatio- 
nen jederzeit zurtickverfolgt bzw. verloren gegangene Daten rekonstruiert werden können. 
Sie bilden die Grundlage für die internen Master-Arbeitsfiles, die alle erhobenen und neu 
generierten Variablen enthalten und den Ausgangspunkt für spätere Daten-Updates sowie die 
Dokumentation der Daten bilden. Aus diesen Datenfiles wiederum werden am Ende des 
Workflows die Analysefiles generiert, die für die Forschung im Projekt sowie darüber hin- 
ausgehend für eine breitere Nachnutzung der Daten über verschiedene Publikationswege be- 
reitgestellt werden können. 


6.5.3 Aufbau der Syntax-Files 


Mit Hilfe kommentierter Syntax-Files werden die beschriebenen Schritte der Variablenco- 
dierung sowie der Fehlersuche und Fehlerbehandlung durchgeführt. Sie sollten möglichst 
strukturiert aufgebaut sein und, wie in Abbildung 6.4 dargestellt, z.B. Informationen über 
den Bearbeitenden, den Zeitpunkt der Bearbeitung und den zu bearbeitenden Datensatz ent- 
halten. Ein Verzeichnis der Bearbeitungsschritte sowie ihre Kommentierung ermöglichen es 
auch Dritten, die Programmlogik nachzuvollziehen. Mit Hilfe der Syntax-Files werden die 
Rohdaten in Master-Arbeitsfiles und diese wiederum in Analysefiles transformiert. Hierbei 
werden, wie in Abbildung 6.4 gezeigt, die Rohdaten aufgerufen (Schritt 1), schrittweise über- 
prüft, korrigiert und standardisiert und als internes Master-Arbeitsfile gesichert (Schritt 2). 
In einem weiteren Schritt werden die Anonymisierungsmaßnahmen umgesetzt, um die ent- 
stehenden Analysefiles über die gewünschten Publikationswege zur Verfügung stellen zu 
können (Schritt 3). 

Wird ein solches Modell bereits zu Beginn des Projekts geplant, macht es den Datenauf- 
bereitungsworkflow für alle Beteiligten transparent und verständlich. Es hilft darüber hinaus, 
die eingangs formulierte Frage zu beantworten, wann im Datenaufbereitungsworkflow die 
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erforderlichen Bearbeitungsschritte implementiert werden sollten und wo die hierfür notwen- 
digen und die produzierten Dateien abgelegt bzw. abzulegen sind. 


6.6 Informationstransfer und Datendokumentation 


Die Planungsdokumente, Erhebungsinstrumente bzw. internen Prozessinformationen, die im 
Projektverlauf aufgebaut werden, bilden die Grundlage für die Datendokumentation. Diese 
umfasst im idealen Falle den gesamten Prozess der Planung, Erhebung und Aufbereitung der 
Daten (Häder 2006). Der Transfer dieser Informationen zwischen den einzelnen Phasen 
schafft die erforderliche Transparenz und bildet die Grundlage für das Zusammenwirken der 
Projektmitglieder sowie die Entscheidungen, die sie im Umgang mit den Daten treffen müs- 
sen. Abbildung 6.5 zeigt das eingangs verwendete Lebenszyklusmodell, diesmal erweitert 
um Informationen, die in den einzelnen Projektphasen generiert und an die nachfolgenden 
Phasen übergeben werden. 


Abbildung 6.5: Informationstransfer zwischen den Projektphasen 


Projektplanung 


= Feedback zu Erhebungsinstrument = Projektempfehlungen 
= Errata-Listen zu Analysefiles = Erhebungsinstrument 
= Nachweis von Publikationen = Methodenfragebogen 


Bereitstellun Datenerhebun 
Fs g Forschung g 
Archivierung Datenerfassung 
= Analysefiles (interne Arbeitsfiles) = Rohdatenfile 
=" Studien-& Variablendokumentation = eingesetztes Erhebungsinstrument 
= interne Prozessinformation = Methodenbericht, Paradaten 


Datenaufbereitung 
Dokumentation 


Quelle: Eigene Darstellung in Anlehnung an Survey Research Center (2016) 


Für eine übersichtliche Darstellung wird hier nur eine Auswahl an möglichen Files aufgeführt 
und ist der Transfer zwischen den Phasen auf die jeweils neu entstehenden Daten und Infor- 
mationen begrenzt. In der Projektpraxis müssen jedoch Dokumentationen, wie z.B. die Pro- 
jektempfehlungen, nicht nur an die unmittelbar nachfolgende Phase weitergegeben werden, 
sondern allen Projektmitgliedern in der aktuellen Version jederzeit zur Verfügung stehen. 

Schaut man aus Sicht der Datenaufbereitung und Dokumentation auf das Lebenszyklus- 
modell, dann werden die Daten und Informationen der vorausgehenden Projektphasen an 
diese Phase transferiert und bilden die Grundlage für die weiteren Aufbereitungsschritte. 
Hierbei werden neue Informationen generiert, die die vorgenommenen Datenmodifikationen 
und die Besonderheiten in den Daten beschreiben. Im Ergebnis entsteht eine Datendokumen- 
tation, die im idealen Fall die wichtigen im Projektverlauf produzierten Informationen um- 
fasst. 
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Sollen die Daten nach Abschluss des Projektes für eine nachhaltige Sicherung und wei- 
tere Nutzung an ein Datenarchiv oder Repositorium übergeben werden, muss eine Auswahl 
aus dem umfangreichen Informationsbestand getroffen werden. Die entstehende Datendoku- 
mentation sollte Informationen auf Projekt-, Studien- und Variablenebene enthalten und da- 
mit sowohl den Kontext des Projekts als auch den unmittelbaren Entstehungs- und Bearbei- 
tungsprozess der Daten für Dritte verständlich machen. Hauptbestandteile sind: (1) die Pro- 
jektempfehlungen, das Erhebungsinstrument sowie Interviewer-Informationen aus der Pla- 
nungsphase, die helfen sollen, die Projektziele zu erreichen und Daten mit der angestrebten 
Qualität zu produzieren, (2) Informationen, die während der Erhebung der Daten generiert 
wurden und Auskunft über z.B. die Antwortbereitschaft und das Antwortverhalten der be- 
fragten Personen geben, und (3) interne Prozessinformationen, wie die Arbeitsfiles und Syn- 
taxfiles, die es darüber hinaus ermöglichen, Datenprobleme, die während späterer Analysen 
gefunden werden, aufzuklären. Sie bilden zusammen mit der Beschreibung des Datenaufbe- 
reitungsworkflows einen guten Ausgangspunkt, falls nachfolgende Erhebungswellen geplant 
sind (Survey Research Center 2016: 667). 

Ein Teil dieser Informationen kann in einem weiteren Schritt in einem Methodenbericht 
sowie Variablenreport aggregiert werden, die Forschenden den Zugang zu und den Umgang 
mit den Daten erleichtern. Sie geben am Ende eines Projekts detailliert Auskunft über die 
Entstehung der Daten, ihren Inhalt und die Qualität und ermöglichen damit eine adäquate 
Nutzung (Lück/Landrock 2014). 


6.6.1 | Methodenbericht 


Der Methodenbericht beinhaltet neben allgemeinen projektbeschreibenden Informationen — 
wie Titel und Zitation der Daten, Primärforscher/innen sowie Quellen der Projektfinanzie- 
rung — methodische Informationen aus den einzelnen Projektphasen. Er beschreibt den Pro- 
zess der Fragebogenentwicklung, die Grundgesamtheit, das Auswahlverfahren und enthält 
Informationen tiber den Befragungszeitraum und die Befragungsmethode sowie die Aus- 
schöpfung der Stichprobe. Projekte, die die Daten selbst erheben, müssen die erforderlichen 
Informationen möglichst zeitnah zu ihrer Entstehung und umfassend protokollieren. Wird 
ein Erhebungsinstitut mit der Datenerhebung beauftragt, ist der Methodenbericht oder Feld- 
bericht zumeist Bestandteil der Datenlieferung an das Projekt. Bei multinationalen Projekten 
basiert er auf einem Methoden- oder Feldfragebogen, der Teil der Planungsdokumente ist 
und es ermöglicht, auch bei mehreren involvierten Erhebungsinstituten die Entstehung der 
Daten strukturiert zu beschreiben. 


6.6.2 Variablenreport 


Der Variablenreport beschreibt die in dem Datensatz enthaltenen Variablen und gibt einen 
Überblick über die eingesetzten Prüfprozeduren und vorgenommenen Datenmodifikationen. 
Die Dokumentation der einzelnen Bearbeitungsschritte macht es auch Forschenden außer- 
halb des Projekts möglich, die Qualität der Daten zu bewerten und zu entscheiden, ob im 
eigenen Forschungskontext weitere Prüfprozeduren bzw. Datentransformationen erforder- 
lich sind. Hierfür werden Informationen aus den verschiedenen Phasen des Forschungspro- 
jekts und aus unterschiedlichen Quellen zusammengeführt. Im idealen Falle werden die ein- 
zelnen Variablen durch die Metadaten des Datensatzes (Variablenname, Werte sowie Vari- 
ablen- und Wertelabels) beschrieben und mit weiteren Informationen verknüpft. Das sind 
häufig der exakte Wortlaut der Frage aus dem Erhebungsinstrument sowie die absoluten und 
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relativen Häufigkeitsverteilungen des Analysefiles, die einen ersten Blick auf die Verteilun- 
gen in den Daten geben. Darüber hinaus können Kommentare zu den Variablen ergänzt wer- 
den, die z.B. über die Quelle der eingesetzten Frage, die verwendeten Standards sowie Be- 
sonderheiten in den Daten informieren. Für den Aufbau solcher Variablendokumentationen 
stehen Tools zur Verfügung, die internationale Metadatenstandards anwenden und damit ei- 
nen plattformübergreifenden Transfer der Dokumentationen erlauben, wie im zweiten Teil 
von Kapitel 9 näher beschrieben wird. Nach Abschluss des Projekts kann die Variablendo- 
kumentation über Retrieval-Systeme zugänglich gemacht werden und Datennutzende bei Re- 
cherchen in den Fragetexten und damit bei der direkten Erschließung der Dateninhalte unter- 
stützen. 

Die Dokumentationen, die zusammen mit den Daten weitergegeben werden, bilden im 
Kontext eines Datenarchivs oder Repositoriums eine wichtige Grundlage für die Erstellung 
strukturierter Metadaten. Die Aufgabe der Metadaten ist es dann, die Daten inhaltlich und 
methodisch möglichst exakt und umfassend zu beschreiben (vgl. Kapitel 9.2) und in Ret- 
rieval-Systemen, wie z.B. Datenkataloge, für Sekundärforschende einfach auffindbar und zu- 
gänglich zu machen (vgl. Kapitel 8.1). 


6.7 Fazit 


Eine systematische Dokumentation der Entstehung und Bearbeitung der Daten gibt im un- 
mittelbaren Projektkontext einen guten Einblick in die Datenqualität und schafft einen adä- 
quaten Datenzugang. Vermittelt über ein Repositorium oder Datenarchiv ermöglicht sie es 
auch Dritten, die Daten im Rahmen eigener Forschungsprojekte zu verwenden sowie die ori- 
ginären Projektergebnisse zu replizieren. Eine nachhaltige Sicherung der Ergebnisse des Pro- 
jekts erlaubt es darüber hinaus, diese als einen Ausgangspunkt für die zukünftige Projektpla- 
nung zu nutzen. 

Die Grundlage hierfür ist die Planung und Organisation der Datenaufbereitung und Do- 
kumentation im Projektverlauf, wofür sich Lebenszyklusmodelle als sehr hilfreich erweisen. 
Sie schaffen die erforderliche Transparenz sowohl für die einzelnen Arbeitsschritte als auch 
für komplexe Aufbereitungsworkflows und ermöglichen es den Forschenden, adäquate Wege 
für die Realisierung der Projektziele zu finden und dabei die Projektressourcen zu berück- 
sichtigen. 
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7. Data Sharing: Von der Sicherung zur langfristigen Nutzung 
der Forschungsdaten 


Reiner Mauer und Jonas Recker 


Transparente Forschungsprozesse und reproduzierbare Ergebnisse sind Qualitätsmerkmale 
wissenschaftlichen Arbeitens. Die dauerhafte Verfügbarkeit von Forschungsdaten — und da- 
mit auch deren Archivierung als notwendige Voraussetzung - leistet hierbei einen wesentli- 
chen Beitrag: Sie macht empirische Forschung nicht nur nachvollziehbar, sondern auch an- 
schlussfähig. Darüber hinaus ist ein möglichst offener Zugang zu qualitätsgesicherten und 
gut dokumentierten Forschungsdaten eine wichtige Basis für den wissenschaftlichen Fort- 
schritt, indem Möglichkeiten für neue und innovative Fragestellungen auch über Disziplin- 
grenzen hinweg geschaffen werden. 

Dieses Bewusstsein für den Wert von Forschungsdaten ist im gesamten Wissenschafts- 
system deutlich gestiegen, mit teilweise sehr konkreten Auswirkungen: Es schlägt sich zum 
einen in gesteigerten förderpolitischen Maßnahmen zum Aufbau datenbezogener Infrastruk- 
turen und Services nieder und in der Folge in einer Zunahme entsprechender Angebote. So 
sind beispielsweise in den letzten Jahren an vielen Hochschulen, aber auch an außeruniver- 
sitären Einrichtungen Repositorien und Services für Forschungsdaten aufgebaut worden, um 
den Bedarf der Forschenden an professionellen Lösungen für das Management, die Siche- 
rung und die Veröffentlichung von Forschungsdaten zu decken. Darüber hinaus treten neue, 
teils kommerzielle Anbieter wie Figshare oder Mendeley Data in Erscheinung. 

Auch sehen Forschende sich zunehmend mit gestiegenen Erwartungen hinsichtlich des 
Umgangs mit den von ihnen erzeugten Forschungsdaten konfrontiert. Das veränderte Be- 
wusstsein für den Wert von Forschungsdaten drückt sich auf forschungs- und förderpoliti- 
scher Ebene mittlerweile nicht mehr nur in der Form von eher allgemeinen und unverbindli- 
chen Appellen aus, sondern mündet zunehmend auch in konkreten Maßnahmen und Aufla- 
gen. So gehen Forschungsförderer etwa dazu über, zumindest Aussagen zum geplanten Um- 
gang mit erzeugten Daten bereits bei der Antragsstellung einzufordern, und beziehen diese 
zunehmend in die Entscheidung über eine Förderung ein. Vereinzelt finden sich mittlerweile 
in Bescheiden deutscher Förderer Auflagen dazu, wie nach Projektende mit den erzeugten 
Forschungsdaten zu verfahren ist. Zum Beispiel fordert das Bundesministerium für Bildung 
und Forschung (BMBF) in bestimmten Programmen, dass „Standards des Forschungsdaten- 
managements“ eingehalten und erhobene Forschungsdaten nach Projektende an ein geeigne- 
tes Forschungsdatenzentrum übergeben werden, „um im Sinne der guten wissenschaftlichen 
Praxis eine langfristige Datensicherung für Replikationen und gegebenenfalls Sekundäraus- 
wertungen zu ermöglichen“ (BMBF 2017: B2). 

Auch wenn derartige Regelungen zurzeit in Deutschland eher noch die Ausnahme bilden, 
lässt sich eine Tendenz hin zu mehr Verbindlichkeit — wie sie beispielsweise in den USA und 
im Vereinigten Königreich schon deutlich weiter vorangeschritten ist — auch in Deutschland 
erkennen. Angesichts dieser Entwicklung stellt sich für viele Forschende die (idealerweise 
schon zu Projektbeginn zu beantwortende) Frage, wie sie mit ihren Forschungsdaten nach 
dem Ende des Projekts verfahren sollen. In diesem Zusammenhang gilt es, die geeignete 
Form der Sicherung, Archivierung oder Veröffentlichung der Daten zu bestimmen und sich 
ggf. für ein geeignetes Repositorium oder Datenzentrum zu entscheiden. 
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In diesem Kapitel soll ein Überblick über die verschiedenen Optionen gegeben werden, 
Forschungsdaten zu erhalten und zur Nachnutzung durch Dritte zur Verfügung zu stellen. 
Dazu werden zunächst zentrale Begriffe erläutert, die Forschenden immer wieder begegnen, 
wenn sie sich mit der Frage beschäftigen, was mit den Daten nach Ende des eigenen For- 
schungsprojekts geschehen soll (Abschnitt 7.1). Abschnitt 7.2 befasst sich darauf aufbauend 
mit Zugangswegen zu Forschungsdaten sowie mit Lizenzen, die die Nutzung der Daten re- 
geln können. Anschließend soll in Abschnitt 7.3 ein Überblick über bestehende Möglichkei- 
ten gegeben werden, Daten über die Projektlaufzeit hinaus zu sichern und zugänglich zu ma- 
chen. Abschnitt 7.4 beschreibt Maßnahmen, die Datenzentren üblicherweise durchführen, 
wenn sie Forschungsdaten für eine langfristige Sicherung und Bereitstellung übernehmen. 
Das Kapitel schließt mit Hinweisen dazu, wie Forschende ein für ihre Bedarfe geeignetes 
Repositorium auswählen können (Abschnitt 7.5). 


7.1 Zentrale Begriffe: Forschungsdaten sichern, archivieren und 
teilen 


Das Thema Forschungsdatenmanagement ist eng mit der Frage verknüpft, was mit For- 
schungsdaten geschehen soll, wenn das Projekt endet, in dem sie erhoben und analysiert wur- 
den. In diesem Zusammenhang begegnen Wissenschaftlerinnen und Wissenschaftlern einer 
Vielzahl von Begriffen. So ist die Rede davon, dass Daten aufbewahrt, gesichert, archiviert 
und geteilt werden sollen. In der Regel existieren aber keine einheitlichen Definitionen der 
Begriffe und ihre Bedeutung ist stark vom jeweiligen Verwendungskontext abhängig. Dies 
erschwert das Verständnis sowohl in Bezug auf die Anforderungen, denen Forschende genü- 
gen sollen, aber auch im Hinblick auf das Leistungsspektrum verschiedener Datenzentren. 
Wie unterscheidet sich z.B. eine Sicherung von einer Archivierung der Daten? Und was be- 
deutet es, Daten mit Dritten zu teilen (Data Sharing)? 

Die nachfolgende Klärung häufig verwendeter Terminologie soll vor diesem Hintergrund 
dazu beitragen, ein gemeinsames Verständnis für die in diesem Kapitel verwendeten Begriff- 
lichkeiten zu entwickeln. Insbesondere sollen die Erläuterungen Forschenden aber dabei hel- 
fen, forschungsdatenbezogene Empfehlungen und Forderungen (vgl. z.B. DFG 2015; Allianz 
der deutschen Wissenschaftsorganisationen 2010) besser zu verstehen und Serviceangebote 
am Markt in ihrem Leistungsspektrum einschätzen zu können. 


7.1.1 Aufbewahrung und Sicherung 


Mit der Forderung, Forschungsdaten aufzubewahren bzw. zu sichern (vgl. DFG 2013: Emp- 
fehlung 7), gehen die geringsten Anforderungen an den Umgang mit den Objekten (in unse- 
rem Fall digitale Forschungsdaten und dazugehörige Begleitmaterialien, wie z.B. die Daten- 
dokumentation) einher. Im Vordergrund der Maßnahmen steht typischerweise der Erhalt die- 
ser Objekte in definierten (in der Regel unveränderten) Zuständen. Dies beinhaltet vor allem 
den Schutz vor Verlust — sei es durch Zerstörung oder Löschung, Beschädigung und damit 
einhergehender Unlesbarkeit oder durch Unauffindbarkeit — sowie den Schutz vor unberech- 
tigtem Zugriff. Die Sicherung digitaler Objekte wird insbesondere durch die systematische 
Speicherung und weitere organisatorische und technische Maßnahmen realisiert. 
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Im Vergleich zur Sicherung ist mit dem Begriff der Archivierung nicht nur ein systematisches 
Vorgehen bei der Speicherung bzw. im analogen Umfeld der Aufbewahrung von Objekten 
verbunden, sondern es kommen — der Tradition von Registraturen und Archiven folgend — 
weitere zentrale Funktionen hinzu, wie etwa Auswahl und Bewertung, Erschließung, Her- 
stellung und Erhalt der Nutzbarkeit sowie die Organisation des Zugriffs auf das Archivgut. 
Typischerweise zielt Archivierung im Kontext von Bibliotheken, Archiven oder Museen da- 
rauf ab, Objekte zeitlich unbegrenzt aufzubewahren, benutzbar zu machen und zu erhalten. 
Die zentralen Konzepte und Verfahrensweisen der Archivierung wurden zwar im analogen 
Umfeld entwickelt, finden mittlerweile aber auch im Bereich der digitalen Archivierung 
(auch: digitale Langzeitarchivierung) Anwendung. Die Erhaltung von Information in digita- 
ler Form gestaltet sich dabei wesentlich schwieriger als der Erhalt analoger Objekte, wie z.B. 
Papier oder Mikrofilm. Dies ergibt sich vor allem daraus, dass digitale Informationen abhän- 
gig von komplexen, technischen Umgebungen sind. Digitale Informationen sind mehr oder 
weniger eng mit Hardware, Speichermedien, Betriebssystemen und Anwendungssoftware 
verbunden. Diese unterliegen einem ständigen technologischen Wandel und so ist es in erster 
Linie der technologische Fortschritt, der digitale Informationen kontinuierlich bedroht. Eine 
gesicherte Aufbewahrung digitaler Informationen im Sinne von Speicherung reicht demnach 
nicht aus, um deren Lesbarkeit und schon gar nicht deren Interpretierbarkeit langfristig si- 
cherzustellen. Langfristig wird dabei im zentralen Rahmenstandard für die digitale Langzeit- 
archivierung (ISO 14721: Open Archival Information System [OAIS]: Reference Model) 
verstanden als „lange genug [...], um sich mit den Auswirkungen des Technologiewandels 
inklusive der Unterstützung von neuen Datenträgern und Datenformaten sowie einer sich 
verändernden vorgesehenen Zielgruppe“ zu befassen (nestor 2013: 13). 

Digitale Langzeitarchivierung verfolgt daher im Wesentlichen zwei sich ergänzende 
Ziele: (1) die Substanzerhaltung der Dateninhalte, aus denen digitale Objekte physikalisch 
bestehen (bitstream preservation) sowie (2) den Erhalt der dauerhaften Benutzbarkeit und 
(inhaltlichen) Interpretierbarkeit. Letzteres zielt darauf ab, die in den Daten enthaltenen In- 
formationen sowie das für deren Interpretation notwendige Wissen, das nicht in den Daten 
selbst enthalten ist, zu sichern. So wird inhaltliche Interpretierbarkeit gewährleistet, indem 
alle zum Verständnis der Daten benötigten Informationen zusammengestellt werden. Hierzu 
zählen in der quantitativen empirischen Sozialforschung vor allem Informationen zur Entste- 
hung der Daten insgesamt (Studiendesign, Methoden, Messinstrument) und zur Bedeutung 
der einzelnen Variablen des Datensatzes. Zentral für den Erhalt der dauerhaften Interpretier- 
barkeit sind damit insbesondere eher klassische Verfahren zur Erschließung und Dokumen- 
tation. Technisch kommen hingegen Strategien wie etwa Emulation (Nachbildung der tech- 
nischen Umgebung der Objekte) oder Migration (Dateiformate, Speichermedien, technische 
Umgebungen) zum Einsatz. 

Mit Blick auf die Nachnutzbarkeit von Forschungsdaten — als eine besondere Form digi- 
taler Objekte - kommt der Kuratierung und Pflege dieser Daten eine besondere Rolle zu. 
Digitales Kuratieren (digital curation) ist ein Konzept, das sich in weiten Teilen mit Kon- 
zepten und Tätigkeiten im Bereich der digitalen Langzeitarchivierung überschneidet, wie die 
Definitionen in Schaukasten 7.1 verdeutlichen. 
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Schaukasten 7.1: Zwei Beispieldefinitionen von digital curation 


„Digital curation is all about maintaining and adding value to a trusted body of digital information for 
future and current use; specifically, the active management and appraisal of data over the entire life 
cycle. Digital curation builds upon the underlying concepts of digital preservation whilst emphasising 
opportunities for added value and knowledge through annotation and continuing resource manage- 
ment.“ (Pennock 2006: 1) 

„Digital curation involves maintaining, preserving and adding value to digital research data through- 
out its lifecycle.“ (Digital Curation Centre o.J.) 


Aufgrund dieser großen inhaltlichen Überschneidungen werden die Begriffe Kuratierung 
und Langzeitarchivierung häufig nicht trennscharf verwendet. Kuratierung soll im Sinne der 
hier zitierten Definitionen als Oberbegriff für alle Aktivitäten im Lebenszyklus von digitalen 
Objekten verstanden werden, die nicht nur darauf abzielen, diese zu erhalten und nutzbar zu 
machen, sondern insbesondere auch, die digitalen Objekte mit Mehrwert (added value) zu 
versehen. 

Dieser Mehrwert kann z.B. darin bestehen, dass die Daten mit zusätzlichen Informatio- 
nen, etwa über Eigenschaften der jeweiligen politischen Systeme in international-verglei- 
chenden Studien, versehen werden. Ein Mehrwert wird aber auch dann geschaffen, wenn die 
Daten selbst ergänzt werden, z.B. durch die Imputation fehlender Werte. Die Begriffe Auf- 
bereitung und Dokumentation fallen unter diesen Oberbegriff und können als einzelne Ar- 
beitsschritte im Rahmen der Kuratierung angesehen werden. Während die Aufbereitung sich 
insbesondere auf die Arbeit an den Daten selbst bezieht, werden im Rahmen der standardi- 
sierten Datendokumentation die Daten zum Zwecke der inhaltlichen Einordung und Nach- 
vollziehbarkeit beschrieben (vgl. Kapitel 6). Dass in diesem Kontext unterschiedliche Arten 
von Metadaten bei der Dokumentation, Erschließung und langfristigen Bereitstellung von 
Studien, Daten und Kontextinformationen eine besondere Rolle spielen, wird in Kapitel 9 
thematisiert. Damit werden unter den Begriff der Kuratierung auch Tätigkeiten gefasst, die 
nicht erst bei der Aufnahme der Daten in Datenzentren (vgl. Abschnitt 7.4), sondern die — 
zumindest teilweise — bereits von den datenproduzierenden Wissenschaftlerinnen und Wis- 
senschaftlern durchgeführt werden. 


7.1.3 Daten teilen (Data Sharing) 


Die Diskussion um die eingangs skizzierten Entwicklungen und Forderungen wird in der 
Regel unter Verwendung der Schlagworte Data Sharing, Open Science und Open Data ge- 
führt. Unter Data Sharing versteht man die Praxis, in einem Projekt erhobene und/oder ana- 
lysierte Forschungsdaten Dritten mit allen zum Verständnis und zur Nutzung notwendigen 
Materialien unter klar definierten Bedingungen zugänglich zu machen. Dieses Teilen von 
Daten dient entweder dem Zweck der Replikation oder dazu, neue Forschungsfragen zu be- 
antworten. Zudem kann die Nutzung von veröffentlichten Daten im Rahmen der Lehre die 
Ausbildung von Nachwuchswissenschaftlerinnen und -wissenschaftlern unterstützen. 
Gründe für und Vorteile von Data Sharing sind ausführlich diskutiert (vgl. z.B. Herb 2015; 
Piwowar/Vision 2013). 
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Abbildung 7.1: Offenheitsgrade von Daten 


Geschützt Zugänglich Offen 


Zugang 


Bedingungen 


Beispiel 


Quelle: Eigene Darstellung nach Open Data Institute (0.J.) 


Zu beachten ist, dass Data Sharing — anders als die Begriffe Open Data und Open Science 
implizieren — nicht notwendig bedeutet, alle Forschungsergebnisse, und insbesondere die ge- 
wonnenen Forschungsdaten, unmittelbar und für jeden frei im Internet zugänglich zu machen 
(Herb 2015: 26). So lässt sich ein offener Zugang, verstanden als die Ermöglichung einer 
freien Nutzung zu allen Zwecken und für alle interessierten Personengruppen, nicht immer 
realisieren. Dies betrifft u.a. personenbezogene Daten, aber auch Daten, die im Zusammen- 
hang mit gewerblichen Schutzrechten (z.B. Patenten) stehen. Weiterhin sind Daten zu be- 
rücksichtigen, deren Veröffentlichung aus Sicherheitsgründen (z.B. nationale Sicherheit) 
nicht möglich ist oder deren Bekanntwerden den Untersuchungsgegenstand gefährden 
würde. Dies kann z.B. in der Biodiversitätsforschung der Fall sein, wenn die Daten Hinweise 
enthalten, die zur unerwünschten Lokalisierung von seltenen Tierpopulationen oder schüt- 
zenswerter Natur durch Dritte führen könnten. Dies bedeutet aber nicht, dass solche Daten 
anderen überhaupt nicht zugänglich gemacht werden können. Vielmehr ist es hilfreich, Zu- 
gänglichkeit nicht so sehr als binären Gegensatz von open vs. closed zu denken, sondern, wie 
in Abbildung 7.1 dargestellt, als Spektrum von Offenheitsgraden zu verstehen. Innerhalb die- 
ses Spektrums existieren abgestufte Möglichkeiten, Forschungsdaten je nach Sensitivität o- 
der unter Berücksichtigung anderer rechtlicher und organisatorischer Rahmenbedingungen 
unter geeigneten Zugangs- und Nutzungsbedingungen mit einer definierten Zielgruppe zu 
teilen. 


7.2  Zugangswege und Lizenzen 


Forschende können im Rahmen des Data Sharing durch die Wahl geeigneter Zugangswege 
zu den Daten und die Vergabe von Lizenzen steuern, wie und unter welchen Bedingungen 
auf die Daten zugegriffen werden darf. 

Zugangswege, die auch für sozialwissenschaftliche Daten gängig sind, umfassen z.B.: 


Freier Zugang über das Internet: Daten und Dokumentation sind online verfügbar und können über 
das Internet ohne weitere Hürden zur Nutzung heruntergeladen werden; 

Zugang nach Registrierung: Nutzende müssen einen Account beim Anbieter der Daten erstellen und 
sich anmelden, um Zugang zu Daten zu erhalten; 

Geschützter Remote-Zugang: Besonders sensitive Daten werden — in der Regel nach Antragstellung 
und nach Abschluss eines Vertrags — in einer besonders geschützten Remote-Umgebung zur Analyse 
bereitgestellt. Dies bedeutet, dass Forschende zwar über das Internet auf die Daten zugreifen können, 
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dieser Zugriff aber durch technische Schutzmechanismen beschrankt wird (vgl. Schiller et al. 2017). 
So ist ein Herunterladen der Daten in der Regel nicht möglich und erstellte Analyseergebnisse wer- 
den ggf. von Mitarbeitenden des Datenanbieters auf Einhaltung des Datenschutzes kontrolliert, bevor 
sie an die Forschenden weitergegeben werden; 

Vor-Ort-Zugang: Forschungsdaten sind nach Antragstellung und Vertragsschluss in einer geschütz- 
ten Umgebung lokal beim Datenanbieter zugänglich. Auch hier werden Analyseergebnisse in der 
Regel kontrolliert, bevor sie ausgehändigt werden. 


Zu beachten sind bei der Wahl eines Zugangswegs für Forschungsdaten — sofern relevant — 
die Regelungen des Datenschutzes sowie Zusicherungen und Angaben, die Studienteilneh- 
menden im Zusammenhang mit der informierten Einwilligung gegeben wurden. Zudem ist 
zu beachten, dass (die Entscheidung über) eine Veröffentlichung und Modalitäten der Nut- 
zung der Daten nur von Inhaberinnen und Inhabern der Verwertungsrechte erfolgen kann. 
Dies kann insbesondere im Fall von Sekundäranalysen zu Problemen führen, wenn in der 
eigenen Forschung bereits existierende Datenbestände Dritter genutzt werden. Hier ist es in 
der Regel notwendig, Rechteinhaber/-innen zu kontaktieren und eine explizite Genehmigung 
für eine Veröffentlichung einzuholen. 

Innerhalb des formalen Rahmens, der durch die oben genannten Zugangswege geschaffen 
wird, können zusätzliche Nutzungsbedingungen definiert werden. Diese legen fest, durch 
wen und für welche Nutzungszwecke Forschungsdaten zugänglich sein sollen. Solche Nut- 
zungsbedingungen werden auch als Lizenzen bezeichnet. So schreibt Kreutzer (2016: 19): 


Eine Lizenz ist eine Nutzungserlaubnis für Handlungen, die ohne Zustimmung nicht erlaubt wären. Ob 
eine Lizenz ein Vertrag oder ein einfaches, einseitiges Versprechen ist, ist von Land zu Land verschieden. 
Die Auswirkungen sind hingegen dieselben: Die Lizenz ist eine rechtlich gültige Vereinbarung, die die 
Verwendung eines bestimmten Werkes regelt. Verwendungen, die nicht von der Lizenz abgedeckt sind 
oder die gegen die Lizenzpflichten verstoßen, sind widerrechtliche Handlungen, die rechtliche Folgen 
nach sich ziehen können. 


Lizenzen sind ein hilfreiches Instrument, um die Nutzung von Daten durch Dritte zu regeln. 
Sie erlauben es einerseits — im Sinne eines möglichst offenen Zugangs zu den Ergebnissen 
öffentlich geförderter Forschung —, Regeln aufzustellen, die im Vergleich zum deutschen 
Urheberrecht die Nutzung der Daten erleichtern und Hürden abbauen. Andererseits schaffen 
Lizenzen Transparenz über erlaubte Nutzungsformen, da sie für Nutzende oft leichter ver- 
ständlich sind als das Urheberrecht. Dies gilt umso mehr, wenn Lizenztexte nicht frei formu- 
liert werden, sondern standardisierte und möglichst weit verbreitete Lizenzen verwendet wer- 
den, wie beispielsweise die in Schaukasten 7.2 dargestellten Creative Commons-Lizenzen. 

Bei der Nutzung von Creative Commons (CC) und anderen Standardlizenzen für For- 
schungsdaten ist zu beachten, dass diese Lizenzen erforderliche oder erwünschte Zugangs- 
und Nutzungsszenarien nicht immer abbilden können. Zum Beispiel können Daten, die unter 
besonderem Schutz stehen und deshalb nur in einer geschützten technischen Umgebung ver- 
arbeitet werden dürfen, nicht unter eine CC-Lizenz gestellt werden, da diese immer auch die 
Weitergabe der betreffenden Daten an Dritte erlaubt. Ebenso ist die Beschränkung auf eine 
rein wissenschaftliche Nutzung der Daten mit Hilfe von CC-Lizenzen nicht darstellbar. 

Die Klärung rechtlicher Aspekte der Nutzung von Forschungsdaten durch Dritte ist ein 
wichtiger Schritt in der Entscheidung, ob und wie diese Daten anderen zur Nutzung bereit- 
gestellt werden können und sollen. Ist dies erfolgt, können weitere Schritte zur Auswahl einer 
geeigneten Lösung für die Sicherung sowie ggf. Archivierung und Veröffentlichung der Da- 
ten erfolgen. Hierzu geben die folgenden Abschnitte einen Überblick darüber, welche Arten 
von unterschiedlichen Diensten es gibt, welche Leistungen sie erbringen und wie Forschende 
für ihre Bedürfnisse geeignete Angebote identifizieren können. 
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Schaukasten 7.2: Creative-Commons-Lizenzen 


«  Creative-Commons-(CC)-Lizenzen beruhen auf vier definierten Nutzungsbedingungen, die sich zu 
insgesamt sechs Standardlizenzen kombinieren lassen: 


Namensnennung (attribution - BY), 

Weitergabe unter gleichen Bedingungen (share alike — SA), 
nicht-kommerziell (non-commercial — NC), 

keine Bearbeitungen (no derivatives — ND). 


Alle Kombinationen erfordern die Namensnennung der Urheberin oder des Urhebers des Werks, 
z.B. CC-BY-SA oder CC-BY-NC-SA (vgl. Creative-Commons - Mehr über die Lizenzen o.J.). 

« Fur alle CC-Standardlizenzen gibt es eine kurze alltagssprachliche Zusammenfassung, die es den 
Lizenzgeberinnen und -gebern sowie den Nutzenden ermöglicht, sich schnell über den Umfang einer 
Lizenz zu informieren. Verbindlich für die Nutzung sind aber die ausformulierten und juristisch ge- 
prüften Lizenztexte. 

e  CC-Lizenzen sind prinzipiell für alle Arten von urheberrechtlich geschützten Werken nutzbar — von 
Bildern über Musik bis zu wissenschaftlichen Textpublikationen und Forschungsdaten. Zu beachten 
ist aber, dass eine Lizenz nur vom Inhaber/der Inhaberin der sogenannten Verwertungsrechte ver- 
geben werden kann. Dies sind in der Regel die Urheberinnen und Urheber oder ihre Arbeitgeber, 
sofern ein Werk als Teil eines Beschäftigungsverhältnisses geschaffen wurde. 

e Wollen Forschende ihre Daten ohne jegliche Einschränkung der Nutzung anderen zur Verfügung 
stellen, können sie auch eine sogenannte CCO-Lizenz vergeben. Eine kurze Erläuterung der Beson- 
derheiten dieser Lizenz geben Steinhau und Pachali (2017). Auch wenn die Namensnennung des 
Urhebers oder der Urheberin hier keine Nutzungsbedingung mehr darstellt, ist das Zitieren aller ver- 
wendeten Quellen im wissenschaftlichen Kontext zur Wahrung der guten wissenschaftlichen Praxis 
selbstverständlich trotzdem erforderlich. 


Quelle: Eigene Darstellung mit Verweis auf die genannten Quellen 


7.3 Bereitstellung und Veröffentlichung von Daten nach Projektende 


Sollen Forschungsdaten nach der unmittelbaren Projektphase anderen zur Nachnutzung be- 
reitgestellt werden, sollte dies idealerweise von Anfang an eingeplant werden. So kann der 
Aufwand, der ggf. am Projektende bei der Übergabe an ein Repositorium zur Veröffentli- 
chung der Daten entsteht, teils drastisch gesenkt werden. Zusätzlich profitieren während der 
Projektlaufzeit alle Beteiligten von gut gepflegten und dokumentierten Daten. 


7.3.1 Aufbewahrung zur Sicherung guter wissenschaftlicher Praxis 


Selbst wenn erzeugte Forschungsdaten nach Projektende nicht veröffentlicht werden sollen 
oder dürfen, gilt es, die Minimalanforderungen für die Sicherung und Aufbewahrung von 
Forschungsdaten, wie sie sich regelmäßig in den Regeln guter wissenschaftlicher Praxis fin- 
den, im Blick zu halten. So empfiehlt beispielsweise die Deutsche Forschungsgemeinschaft 
(DFG 2013), an der sich viele institutionelle Regeln orientieren, Daten mindestens zehn Jahre 
aufzubewahren. Dies soll sicherstellen, dass Daten auf Nachfrage zu Replikationszwecken 
herausgegeben werden können. Auch wenn diese und ähnliche Empfehlungen (vgl. z.B. 
Leibniz-Gemeinschaft 2015; ALLEA 2017) das Thema Dokumentation nur rudimentär auf- 
greifen, sollten Forschende Vorkehrungen treffen, damit im Fall der Fälle auf die richtigen 
Versionen zugegriffen werden kann und auch noch nachvollziehbar ist, wie diese entstanden 
und zu interpretieren sind. 

Die wahrscheinlich nach wie vor häufigste Form des Umgangs mit Forschungsdaten nach 
der Beendigung eines Projektes ist die Speicherung auf eigenen Computern, USB-Sticks oder 
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DVDs (vgl. z.B. Kindling/Schirmbacher/Simukovic 2013: 54; Kuipers/van der Hoeven 
2009: 32). Sie ist gleichzeitig die am wenigsten geeignete, um die vorgenannten Anforde- 
rungen zu erfüllen. Solche Lösungen sind meist der Tatsache geschuldet, dass die oben an- 
gesprochenen Fragen zum Nachnutzungsszenario nicht ausreichend bzw. frühzeitig adres- 
siert wurden. Typischerweise steht am Projektende keine Zeit zur Verfügung, sich mit Orga- 
nisation, Aufbereitung, Dokumentation und Veröffentlichung der Daten zu befassen. Viel- 
mehr müssen Abschlussberichte geschrieben und neue Projekte beantragt werden. Nach Pro- 
jektende lösen sich Projektteams auf, Mitarbeitende übernehmen neue Aufgaben oder wech- 
seln zu einer anderen Institution. All dies führt nicht selten dazu, dass Forschungsdaten selbst 
den unmittelbar an der Erhebung beteiligten Wissenschaftlerinnen und Wissenschaftlern 
nicht mehr in geeigneter Form zur Verfügung stehen, um zu einem späteren Zeitpunkt Ana- 
lyseergebnisse zu überprüfen oder weiterführende Fragestellungen zu bearbeiten. Aber nicht 
nur die Speicherung auf dafür nicht geeigneten Datenträgern bzw. in unsicheren Umgebun- 
gen birgt Risiken. 

Selbst eine planvollere Herangehensweise, die eine professionelle und redundante Daten- 
haltung beinhaltet, ist nicht unbedingt eine Garantie dafür, dass Daten über einen längeren 
Zeitraum nutz- und interpretierbar bleiben. Unsicherheit bzgl. vorhandener Versionen, und- 
okumentierte Bereinigungen, Aufbereitungen oder sonstige Veränderungen an den Daten, 
unzureichende Dokumentation der Datenerhebung oder der Stichprobenziehung kompromit- 
tieren den Wert von Daten für eine spätere Verwendung. Einen oft übersehenen Risikofaktor 
stellen die gewählten Dateiformate dar. So können Dateien komplett unlesbar werden oder 
sich Einschränkungen in der Nutzbarkeit der Daten ergeben, wenn die zur Erstellung ur- 
sprünglich genutzte Software nicht mehr oder nur in neueren Versionen zur Verfügung steht. 
Insbesondere wenn längere Zeiträume der Nachnutzung angestrebt werden, bedarf es daher 
eines systematischen Ansatzes zur digitalen Langzeitarchivierung, wie oben bereits erwähnt. 


7.3.2 Optionen zur Veröffentlichung und Archivierung von Forschungsdaten 


Wenn Forschungsdaten veröffentlicht werden sollen, bieten sich hierfür verschiedene Wege 
oder Formen an. Mittlerweile existiert eine Vielzahl von Diensten, die Forschende bei der 
Sicherung, Aufwertung und Veröffentlichung von Forschungsdaten unterstützen. Diese un- 
terscheiden sich jedoch z.T. erheblich, z.B. hinsichtlich Art und Umfang der angebotenen 
Dienstleistungen, der fachlichen Abdeckung oder auch der Art und Weise, wie Daten Dritten 
zur Nachnutzung zur Verfügung gestellt werden. Neben generischen Angeboten, die offen 
für Daten aus allen Fachgebieten sind, finden sich solche, die auf bestimmte Disziplinen, 
Themen oder Datentypen spezialisiert sind (s. Schaukasten 7.3 für Beispiele). 

Institutionelle Repositorien konzentrieren sich in der Regel auf Forschungsoutputs der 
eigenen Einrichtung, während disziplin- oder domänenspezifische Forschungsdateninfra- 
strukturen eher auf nationaler oder internationaler Ebene arbeiten, dafür aber nicht allen 
Communities oder Datentypen offenstehen. Neben der eigenständigen Veröffentlichung der 
Forschungsdaten in einem Repositorium oder Datenzentrum, besteht auch die Möglichkeit, 
ein Data Paper in einem Datenjournal zu veröffentlichen (s.u.). Diese konzentrieren sich im 
Gegensatz zu klassischen Fachzeitschriften auf die Publikation von Forschungsdaten bzw. 
auf Beschreibungen dieser Daten. Darüber hinaus werden Forschungsdaten aber auch als Er- 
gänzung zu einer wissenschaftlichen (Text-)Publikation veröffentlicht, z.B. als Supplemen- 
tary Material. 

Welcher Weg nun für die Sicherung, Archivierung und Veröffentlichung der eigenen 
Forschungsdaten am geeignetsten ist, kann pauschal nicht beantwortet werden, sondern hängt 
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von einer Vielzahl von Faktoren ab. Einige Hinweise werden im folgenden Abschnitt gege- 
ben. 

Unter Repositorien werden in diesem Kontext über das Internet zugängliche Plattformen 
zur Sicherung und Veröffentlichung von Forschungsdaten verstanden. Datenproduzentinnen 
und -produzenten können Forschungsdaten über ein Online-Formular in das Repositorium 
laden und mit mehr oder weniger reichhaltigen Metadaten beschreiben. Im Zuge der Veröf- 
fentlichung werden die Daten mit einem persistenten Identifikator versehen, sodass sie dau- 
erhaft auffindbar, referenzierbar und zitierbar sind, wie in Kapitel 10 behandelt. Neben dem 
Vorteil einer systematischen Sicherung der eigenen Daten bieten Repositorien eine sehr gute 
Möglichkeit, Daten anderen Personen zur Verfügung zu stellen. Idealerweise können For- 
schende dabei selbst entscheiden, wem und unter welchen Bedingungen ihre Daten zur Ver- 
fügung gestellt werden. Dies geschieht sinnvollerweise durch die Verwendung standardisier- 
ter und — sofern möglich — offener Lizenzen (s. Abschnitt 7.2). 


Schaukasten 7.3: Angebote zur Sicherung und Veröffentlichung von Forschungsdaten (Beispiele) 


Art des Dienstes Hinweise Beispiele 

Fachübergreifend, Geschäftsbedingungen prüfen — z.B. Kommerzieller Träger 

nicht institutionell auf (unerwünschte) Gewährung von - Figshare 

gebunden Rechten zur Datennutzung, Aspekte + Mendeley Data 
der Datensicherheit und des Daten- i f 2 k 
schutzes, garantierte Haltefristen. Offentlich geförderter Träger 


Für die Inanspruchnahme der Dienste * Zenodo Bu 
zur Veröffentlichung können (einmalige * RADAR (kostenpflichtig) 
oder wiederkehrende) Kosten anfallen. 


Institutionelles Einreichung von Daten in der Regel + heiDATA, Universität Heidelberg 
Repositorium nur für Institutionsangehörige + Forschungsdatenzentrum des 
Robert Koch-Instituts 
Disziplinspezifische Frühzeitig Anforderungen für eine Ein- e PsychData, Leibniz-Zentrum für Psy- 
Angebote reichung zur Archivierung und Veröf- chologische Information und Doku- 
fentlichung in Erfahrung bringen (z.B. mentation, für Daten der Psychologie 
in Bezug auf Datenformate, Dokumen- « Qualiservice Bremen für qualitative 
tation). sozialwissenschaftliche Daten 
er : e GESIS Datenarchiv für Sozialwissen- 
Für die Inanspruchnahme der Dienste schaften für quantitative sozialwis- 
zur Veröffentlichung können (einmalige senschaftliche Daten 


oder wiederkehrende) Kosten anfallen. Datenservicezentrum Betriebs- und 


Organisationsdaten, Universität 
Bielefeld 


Quelle: Eigene Darstellung 


In den letzten Jahren wurden insbesondere an Hochschulen Repositorien für Forschungsda- 
ten aufgebaut (teilweise auf Grundlage der bereits existierenden Dienste für Open-Access- 
Publikationen), um Forschende an den jeweiligen Einrichtungen beim Umgang mit den ver- 
änderten Anforderungen in Bezug auf Forschungsdaten zu unterstützen. Meist werden zu- 
sätzliche Informations- und Unterstützungsangebote rund um das Thema Forschungsdaten- 
management und die Veröffentlichung der Daten im hauseigenen Dienst angeboten. ! 

Zu den Vorteilen solch institutioneller Dienste zählen ihre räumliche und organisatori- 
sche Nähe und die auf die jeweiligen institutionsspezifischen Bedürfnisse, Regeln und 


1 Häufig werden solche Beratungsangebote an Hochschulen und außeruniversitären Forschungseinrichtungen 
gemeinsam mit einer Forschungsdatenleitlinie etabliert. Daher stellt die regelmäßig aktualisierte Übersicht 
über institutionelle Policies im Wiki von www.forschungsdaten.org einen guten Ausgangspunkt dafür dar, sich 
einen Überblick über existierende Beratungsangebote zu verschaffen. 
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Policies angepassten Angebote. So stellen institutionelle Repositorien einerseits eine sehr 
gute Anlaufstelle für Forschende dar. Andererseits ermöglichen sie es der betreibenden Ein- 
richtung, den eigenen Forschungsoutput gut organisiert und sichtbar darzustellen, insbeson- 
dere wenn sie tiber geeignete Schnittstellen an ein Forschungsinformationssystem zur Erfas- 
sung solcher Forschungsoutputs angebunden sind. 

Ungeachtet der Unterschiede in der technischen oder organisatorischen Ausgestaltung 
der jeweiligen institutionellen Repositorien ist diesen zumindest im hochschulischen Kontext 
typischerweise gemein, dass sie Daten aus allen oder zumindest mehreren Disziplinen offen- 
stehen. Dies ist einerseits ein Vorteil, da derartige niedrigschwellige Angebote die Möglich- 
keit bieten, vielfältige Formen von Forschungsdaten zu archivieren und zu veröffentlichen, 
um so beispielsweise entsprechenden Anforderungen von Förderern zu begegnen. Anderer- 
seits folgt aber daraus auch, dass sie nicht auf Besonderheiten der jeweiligen Disziplinen 
respektive Daten ausgerichtet werden können. So müssen beispielsweise eher generische 
Metadatenschemata zur Beschreibung der Forschungsdaten eingesetzt werden, die sich häu- 
fig auf bibliographische Angaben beschränken und daher nur eingeschränkt geeignet sind, 
Spezifika der jeweiligen Daten und Disziplinen abzubilden. Auch haben die meist sehr ge- 
ringen Anforderungen hinsichtlich Dokumentation, Aufbereitung und technischer Aspekte 
(z.B. Formate) Auswirkungen auf die Nutzbarkeit der Daten. So kann nicht wirklich sicher- 
gestellt werden, dass die veröffentlichten Datensätze langfristig nutzbar sein werden bzw. 
dass ihre Analysepotentiale vollständig ausgenutzt werden können. Häufig sind zudem die 
Möglichkeiten einer fachspezifischen Beratung der Forschenden aufgrund knapper Ressour- 
cen eingeschränkt. Gerade in dem für die Sozialwissenschaften wichtigen Themenkomplex 
Datenschutz, Anonymisierung und informierte Einwilligung fehlen oft entsprechende Bera- 
tungsangebote. Auch haben institutionelle, disziplinübergreifende Repositorien in der Regel 
eine geringere Sichtbarkeit innerhalb der Fachcommunity, sodass die Daten von der Ziel- 
gruppe kaum gefunden werden können. 

Insbesondere in den letztgenannten Bereichen liegen die Stärken von fachspezifischen 
Angeboten (s. Schaukasten 7.3 für Beispiele). Auch in diesem Segment gibt es allerdings 
eine große Heterogenität in Bezug auf Art, Umfang und Struktur der jeweiligen Angebote. 
Die Bandbreite reicht von einfachen Angeboten zur Sicherung und Veröffentlichung von 
Forschungsdaten mittels Repositorien bis hin zu komplexen Forschungsdateninfrastrukturen, 
die, teils auf internationaler Ebene, vielfältige Dienste rund um die Aufbereitung, Dokumen- 
tation, Registrierung und Langzeitarchivierung anbieten sowie umfangreiche Informations-, 
Beratungs- und Schulungsangebote bereithalten. 

In den Sozialwissenschaften existieren solche Dateninfrastrukturen schon recht lange 
(Mochmann 2008). Der Aufbau begann bereits kurz nach dem Zweiten Weltkrieg und ent- 
wickelte in den 1960er Jahren — u.a. mit der Etablierung des Zentralarchivs für Empirische 
Sozialforschung, dem heutigen GESIS Datenarchiv für Sozialwissenschaften — weltweit eine 
gewisse Dynamik. Allein in Europa sind derzeit sozialwissenschaftliche Datenserviceein- 
richtungen aus 34 Ländern im Consortium of European Social Science Data Archives (CES- 
SDA) organisiert, wovon gegenwärtig 17 dieser Einrichtungen im Rahmen eines sogenann- 
ten European Research Infrastructure Consortium (ERIC) eine gemeinsame europäische Da- 
teninfrastruktur aufbauen. In den deutschen Sozialwissenschaften hat sich darüber hinaus 
eine Reihe spezialisierter Forschungsdatenzentren? herausgebildet, die Datenservices aus- 
schließlich für bestimmte Forschungsdaten anbieten — meist für Daten, die an der jeweiligen 
Institution selbst erhoben werden — und in der Regel nicht für die Aufnahme von externen 
Daten zur Verfügung stehen. Bei diesen Zentren handelt es sich meist um kleinere Einheiten, 
die bei der datenerzeugenden oder -haltenden Organisation angesiedelt sind und einen 


2 Diese sind in die Forschungsdateninfrastruktur des Rats für Sozial- und Wirtschaftsdaten eingebunden. 
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thematisch engen Fokus haben, um eine hohe fachwissenschaftliche Qualität der Datenhand- 
habung zu gewährleisten. Einen Überblick über die Struktur und Entwicklung sozialwissen- 
schaftlicher Infrastrukturen bieten Quandt und Mauer (2012), Mauer (2012) sowie Scheuch 
(2003). 

Darüber hinaus haben sich in jüngster Zeit vermehrt auch sogenannte Datenjournale 
(Data Journals) etabliert, die sich im Gegensatz zu klassischen Fachzeitschriften auf die 
Publikation von Forschungsdaten bzw. Beschreibungen von Forschungsdaten konzentrie- 
ren. Die Daten selbst werden meist in kooperierenden Repositorien veröffentlicht. In der 
Regel ist eine solche ‚Datenpublikation‘ an ein Begutachtungsverfahren gekoppelt. Neben 
klassischen Peer-Reviews, die beispielsweise durch eine Begutachtung von Datenspezialis- 
tinnen und -spezialisten ergänzt werden (wie beispielsweise beim Research Data Journal for 
the Humanities and Social Sciences), werden auch innovative Verfahren zur Begutachtung 
eingesetzt. So kommt im Fall des Earth System Science Data (ESSD) ein mehrstufiges In- 
teractive-Public-Peer-Review-Verfahren zum Einsatz. Datenjournale tragen in der nach wie 
vor vorherrschenden Kultur von publish or perish dem Umstand Rechnung, dass in der Ver- 
gangenheit die erhebliche Arbeit, die in die Aufbereitung von Daten für die Forschung und 
insbesondere für eine Nachnutzung durch Dritte fließt, nicht ausreichend gewürdigt oder gar 
als Forschungsleistung anerkannt wurde. Indem Data Papers als referierte Publikation aner- 
kannt werden können, schaffen sie einen zusätzlichen Anreiz zum Teilen und Veröffentli- 
chen von Forschungsdaten. 

Ebenso ist es gängig, die einem wissenschaftlichen Artikel zugrunde liegenden For- 
schungsdaten als Supplementary Material der Textpublikation unmittelbar beizufügen, d.h. 
sie auf den Webseiten der Zeitschrift bzw. des Verlags zu veröffentlichen. Diese Supple- 
mente erhalten häufig keinen eigenen persistenten Identifikator und fallen unter die gleichen 
Zugriffsschranken wie ggf. der Artikel selbst (vgl. National Information Standards Organiza- 
tion 2013). Zudem ist in diesem Fall zu beachten, dass Autorinnen und Autoren möglicher- 
weise vertragliche Vereinbarungen mit dem Verlag schließen (Autorenvertrag), die diesem 
ggf. umfassende Verwertungsrechte an den Daten einräumen. Dies kann Implikationen für 
die Verwendung der Daten in der eigenen Forschung haben. Auch müssen Forschende sich 
bei der Frage der langfristigen Sicherung und Bereitstellung der Daten auf den Verlag ver- 
lassen (vgl. Reilly et al. 2011: 47). Eine Veröffentlichung in einem Repositorium und Ver- 
knüpfung mit dem Artikel über einen persistenten Identifikator ist daher vorzuziehen. Wenn 
dies nicht möglich oder erwünscht ist, sollten Forschende darauf achten, dass sie dem Verlag 
nur ein einfaches Nutzungsrecht an den Daten übertragen und stattdessen ihre Daten soweit 
als möglich unter einer offenen Lizenz veröffentlichen. 

Im folgenden Abschnitt sollen die Abläufe einer Veröffentlichung von Forschungsdaten 
in einem disziplinspezifischen oder institutionellen Datenzentrum skizziert werden. Dabei 
wird vor allem auf für sozialwissenschaftliche Forschungsdaten relevante Aspekte eingegan- 
gen. 


74 Überblick: Was machen Datenzentren mit meinen 
Forschungsdaten? 


Disziplinspezifische Datenzentren bieten forschungsdatenbezogene Services an, die auf die 
besonderen Bedarfe einer Disziplin oder Community zugeschnitten sind. Sie verfügen in der 


3 Eine Übersicht über Datenjournale findet sich bei www.forschungsdaten.org. 
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Regel über die dafür notwendige fachwissenschaftliche Expertise, denn nur so können die 
Spezifika der jeweiligen Forschungsprozesse und der dort entstehenden bzw. verwendeten 
Forschungsdaten in entsprechenden Services abgebildet werden. 

Im GESIS Datenarchiv durchlaufen eingehende Forschungsdaten und Dokumentationen 
einen mehrstufigen Prozess, der letztlich darauf ausgerichtet ist, die Nachvollziehbarkeit und 
das Analysepotential der Daten zu erhöhen sowie ihre Nachnutzbarkeit langfristig zu sichern. 
Die einzelnen Schritte dieses Prozesses können entsprechend den Bedarfen der Forschenden 
bzw. ihrer Daten in Umfang und Tiefe unterschiedlich ausgestaltet werden. 


7.4.1 Vorbereitung der Datenübergabe 


Idealerweise klären Forschende und Dateninfrastruktur vor der eigentlichen Übergabe von 
Forschungsdaten zunächst Details bzgl. Art, Umfang und Zustand der jeweiligen Daten und 
besprechen, welche Aufbereitungs- und Dokumentationsziele angestrebt werden. Auch die 
Frage, auf welchem Weg und unter welchen Bedingungen die Daten zur Nachnutzung be- 
reitgestellt werden sollen bzw. können, sollte vor der Übergabe geklärt werden. Dies kann 
im Gespräch mit Archivmitarbeitenden erfolgen oder auf Grundlage der auf der Webseite 
bereitgestellten Informationen entschieden werden. Diese Absprachen werden in der Regel 
in einer sogenannten Archivierungsvereinbarung festgehalten (vgl. Schaukasten 7.4). In der 
Vereinbarung wird auch die für eine Archivierung und Weitergabe notwendige Übertragung 
von Nutzungsrechten an das Archiv definiert. Diese Vorbereitung sollte möglichst früh im 
Lebenszyklus einer Studie ansetzen, sodass die Archivierung und damit insbesondere eine 
Nachnutzung durch Dritte möglichst reibungslos ablaufen können (s. Kapitel 3). 


Schaukasten 7.4: Typische Inhalte einer Archivierungsvereinbarung 


Übertragung von Rechten zur Speicherung, Vervielfältigung und Verbreitung der Forschungsdaten 
unter den vereinbarten Bedingungen 

Festlegung der Zugangsbedingungen zu den Daten 

Bestätigung des Datengebers/der Datengeberin, dass die Rechte zur Veröffentlichung der Daten bei 
ihm/ihr liegen 

Rechtsnachfolge: Was geschieht beim Ableben des Datengebers/der Datengeberin? 

Verpflichtung zur Einhaltung der Regelungen des Datenschutzes durch Datengeber/-innen und das 
Archiv 


Quelle: Eigene Darstellung 


7.4.2 Datenübergabe und Übernahme in das Archiv 


In der Regel erfolgt die Datenübergabe an das GESIS Datenarchiv entweder in Absprache 
mit den verantwortlichen Mitarbeitenden über ein Tool zur sicheren Datenübertragung oder 
über ein Formular. In diesem ergänzen Forschende beschreibende Metadaten zu den einge- 
reichten Forschungsdaten und laden die Daten dann zusammen mit allen erforderlichen Do- 
kumenten — üblicherweise Codebuch, Erhebungsinstrument und ggf. Syntaxen — hoch. 

Bei der sich anschließenden Aufnahme der Daten in das Archiv werden diese durch er- 
fahrene Kuratorinnen und Kuratoren geprüft. Eine solche standardisierte Eingangskontrolle 
umfasst beispielsweise Prüfungen der folgenden Aspekte: 


Technische Kontrollen der Dateien: Liegen die Daten in einem akzeptierten Format vor? Sind die 
Dateien lesbar und virenfrei? 

Vollständigkeit und Nutzbarkeit: Sind Daten, Messinstrument, Methodenbericht, Datendokumenta- 
tion und weitere Dokumente wie vereinbart und vollständig übergeben worden? Beziehen sich alle 
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übergebenen Materialien logisch aufeinander? Insbesondere: Passen Erhebungsinstrument, Daten- 
satz und Datendokumentation zusammen? 

Konsistenz: Gibt es Werte außerhalb des zulässigen Bereichs (wild codes)? Sind fehlende Werte 
definiert und wenn ja, wie? Stimmen die Daten mit der im Fragenbogen vorgegebenen Filterführung 
überein (question routing)? Gibt es widersprüchliche Merkmalskombinationen? 

Datenschutz: Da es sich bei den durch GESIS archivierten Studien vorrangig um Mikrodaten handelt, 
werden sie darüber hinaus auch auf datenschutzrechtlich relevante Aspekte untersucht. 


Bei der Eingangskontrolle festgestellte Inkonsistenzen oder sonstige Fehler werden doku- 
mentiert und zurückgemeldet. In Abhängigkeit vom Ergebnis der Eingangskontrolle und ei- 
nem zuvor festgelegten Aufbereitungs- und Dokumentationsziel folgen der Eingangskon- 
trolle weitere Arbeitsschritte, wie beispielsweise die Konvertierung der übergebenen Dateien 
in definierte Langfristsicherungsformate und deren Überführung in den zentralen Archiv- 
speicher. 


7.4.3 Aufbereitung und Dokumentation der Daten 


Ein wichtiger Bestandteil der Kuratierung von Forschungsdaten besteht darin, diese so auf- 
zubereiten und zu dokumentieren, dass sie durch Dritte gefunden und genutzt werden kön- 
nen. Der dabei vom Datenarchiv übernommene Umfang dieser Arbeiten ist einerseits abhän- 
gig vom jeweiligen Ausgangszustand der Daten und andererseits vom konkreten Aufberei- 
tungs- und Publikationsziel der jeweiligen Studie. Das Spektrum reicht von reinen Empfeh- 
lungen, wie die betreffenden Daten verbessert oder aufgewertet werden können, über die 
Erstellung von Studienbeschreibungen, die in standardisierter Form (kompatibel zur Meta- 
datenspezifikation der internationalen Data Documentation Initiative, DDI) inhaltliche, me- 
thodische und technische Charakteristika einer Studie spezifizieren, bis hin zur Übernahme 
umfangreicher und komplexer Aufbereitungs- und Dokumentationsarbeiten durch das Ar- 
chiv. Diese umfassen beispielsweise: 


weitergehende Standardisierung und Aufbereitung der Daten, 

Harmonisierung und Integration von Daten zu komplexen zeit- und/oder ländervergleichenden Da- 
tensätzen, 

standardisierte Dokumentation des Erhebungsinstruments, inkl. Filter- und Intervieweranweisungen, 
Erweiterung der Dokumentation um Metadaten auf Studienebene. 


Dieser umfangreiche Bestand an strukturierten Metadaten kann zum einen über verschiedene 
Datenportale und Recherchesysteme zur Verfügung gestellt werden. Zum anderen dient er 
auch dazu, begleitende Dokumentationen etwa in der Form von Codebüchern oder Metho- 
denberichten zu erstellen. 


7.4.4 Bereitstellung von Daten und Dokumentationen 


Zentrales Ziel der vorausgegangenen Tätigkeiten ist die Bereitstellung der Forschungsdaten 
für die Nachnutzung; sei es, um publizierte Forschungsergebnisse nachzuvollziehen oder 
aber — und das gilt für die überwältigende Anzahl der Fälle — um neue Forschungsfragen mit 
Hilfe dieser Daten zu beantworten (vgl. Kapitel 8). In der Regel werden Daten und weitere 
Materialien, wie etwa Fragebögen oder Codebücher, in Portalen zum direkten Download an- 
geboten. Das GESIS Datenarchiv unterhält wie alle Archive der CESSDA -Infrastruktur ei- 
nen Online-Katalog (Datenbestandskatalog, DBK), der als zentraler Zugangspunkt Informa- 
tionen zu allen archivierten Studien bereitstellt. Neben bibliographischen Angaben werden 
dort insbesondere Inhalte und methodische Aspekte beschrieben, wie etwa die 
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Stichprobenziehung oder die in der Studie eingesetzten Erhebungsverfahren. Darüber hinaus 
finden sich auch Hinweise auf Veröffentlichungen und die Versionsgeschichte sowie aktuell 
bekannte Fehler in den Daten. Studien, die beispielsweise aus datenschutzrechtlichen Grün- 
den nur nach Abschluss eines gesonderten Nutzungsvertrags zugänglich gemacht werden, 
können über ein Warenkorbsystem bestellt werden. Besonders schützenswerte Daten werden 
über das Secure Data Center (SDC) in eigens dafür eingerichteten Räumen — sogenannten 
Safe Rooms — zur Vor-Ort-Nutzung bereitgestellt. Eine ausführliche Darstellung von Ser- 
vices des GESIS Datenarchivs im Bereich der Aufbereitung, Dokumentation und Bereitstel- 
lung von Daten findet sich in Recker, Zenk-Möltgen und Mauer (2017). 

Der Umfang und die konkrete Ausgestaltung der hier am Fallbeispiel GESIS geschilder- 
ten Schritte können sich von Infrastruktur zu Infrastruktur unterscheiden und somit als ein 
Kriterium im Prozess der Auswahl eines geeigneten Repositoriums dienen. Im folgenden 
Abschnitt sollen nun abschließend noch weitere Hinweise zur kriteriengeleiteten Auswahl 
eines geeigneten Dienstes gegeben werden. 


7.5 Auswahl eines geeigneten Repositoriums 


Das Angebot an Diensten zur Sicherung, Archivierung und Veröffentlichung von For- 
schungsdaten ist mittlerweile groß und entsprechend unübersichtlich. Forschende stehen da- 
mit vor der Schwierigkeit, passende Angebote für ihre spezifischen Anforderungen zu iden- 
tifizieren, zu bewerten und eine — idealerweise kriteriengestützte — Auswahlentscheidung zu 
treffen. Bei der Identifikation geeigneter Angebote können Forschende folgendermaßen vor- 
gehen: 

Viele Hochschulen und Forschungseinrichtungen unterhalten inzwischen institutionelle 
Angebote für die Sicherung und Veröffentlichung der an der eigenen Einrichtung generierten 
Daten. Alternativ, insbesondere wenn das institutseigene Repositorium eine disziplinüber- 
greifende, generische Ausrichtung hat, werden oftmals Empfehlungen für fachspezifische 
Angebote ausgesprochen. Hier können beispielsweise Bibliotheken und/oder besonders Ser- 
vicestellen für Forschungsdatenmanagement weiterhelfen, wie sie bereits an einer Reihe 
deutscher Hochschulen bestehen. 

Wenn die eigene Institution keine Orientierung oder Hilfestellung bietet, können auch 
wissenschaftliche Verlage als Anlaufstellen dienen. So empfehlen PLOS One oder Nature 
geeignete Repositorien für die Publikation von Daten zu bei ihnen veröffentlichten Artikeln. 

Eine weitere Möglichkeit, einen geeigneten Dienst für die Archivierung und/oder Bereit- 
stellung der erhobenen Daten zu identifizieren, sind Onlineverzeichnisse für Forschungsda- 
tenrepositorien. Nationale Forschungsinfrastrukturen können im Informationsportal 
RISources der DFG recherchiert werden. Internationale Angebote sind im Onlineverzeichnis 
Re3Data verzeichnet, wo sie mit Hilfe eines eigens entwickelten Metadatenschemas (Rück- 
nagel et al. 2015) beschrieben werden und über eine facettierte Suche auffindbar sind. Um in 
Re3data einen geeigneten Dienst für die Veröffentlichung von Daten zu identifizieren, sind — 
neben der Auswahl der Disziplin (subject) und/oder des Datentyps (content type) — vor allem 
die in Schaukasten 7.5 erläuterten Felder von Bedeutung. 
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Schaukasten 7.5: Ausgewahlte Metadatenfelder in der Re3Data-Suche 


Feld Erläuterung 
Data upload (Data upload Die Felder geben Auskunft darüber, wer in einem Dienst Daten veröffent- 
restrictions) lichen kann. Nur Dienste mit dem Merkmal Data upload: Open stehen 


grundsätzlich allen Forschenden für die Veröffentlichung von Daten offen. 
Doch auch Dienste mit dem Merkmal Data upload: Restricted können 
häufig nach Regis-trierung (Data upload restriction: Registration) ohne 
weitere Einschränkungen zur Veröffentlichung genutzt werden. 


Data access (Data access Die Felder enthalten Informationen darüber, unter welchen Bedingungen 
restrictions) die Daten und das Repositorium für Nutzende zugänglich sind. Liegen 
Database access (Database Zugangsbeschränkungen (z.B. Zugang nur nach Registrierung) vor, wer- 
access restrictions) den sie im entsprechenden Feld näher beschrieben. 

Certificates Das Feld enthalt Informationen Uber eine vorliegende Zertifizierung des 


Repositoriums und gibt damit z.B. Auskunft darüber, ob ein Dienst nach 
anerkannten Archivierungsstandards betrieben wird (s. auch Abschnitt 
7.5). 


Quelle: Eigene Darstellung 


Sofern Forschende nicht durch eine institutionelle Policy an die Veröffentlichung der Daten 
über einen bestimmten Dienst gebunden sind, können die folgenden Kriterien bei der Aus- 
wahl eines Repositoriums einbezogen werden.* 

Inhaltliche Ausrichtung: Insbesondere disziplinäre Repositorien haben häufig einen Sam- 
melschwerpunkt. D.h., sie archivieren vorrangig Forschungsdaten eines bestimmten Typs 
und/oder mit einem bestimmten thematischen Fokus. So archiviert etwa das GESIS Daten- 
archiv vorwiegend quantitative Daten, während qualitative Daten bei Qualiservice Bremen 
archiviert werden können. 

Technische Einschränkungen: Archive, die Daten langfristig archivieren und kuratieren, 
beschränken häufig die Dateiformate, in denen Daten eingereicht werden können. Wenn die 
zu erhebenden Daten im Projekt nicht direkt in diesen Formaten generiert oder später ver- 
lustfrei in diese überführt werden können, muss ggf. ein anderer Dienst gewählt werden. Es 
empfiehlt sich aber im Zweifel, zunächst Rücksprache mit dem entsprechenden Dienst zu 
halten. 

Auffindbarkeit der Daten für die primäre Zielgruppe: In der Regel haben disziplinspezi- 
fische Angebote den Vorteil, dass sie für die Fachcommunity relevante Daten bündeln und 
so eher Anlaufpunkte für die gezielte Suche nach Daten sind. Damit erreichen Forschungs- 
daten in diesen Angeboten die intendierte Zielgruppe in höherem Maße. Jener Nachteil insti- 
tutioneller oder generischer Angebote kann aber ggf. abgeschwächt werden, wenn die be- 
schreibenden Metadaten von anderen, auch disziplinspezifischen Angeboten, geharvested 
werden und gezielt durchsucht werden können. 

Zugangsbedingungen und -lizenzen: Repositorien bieten teils unterschiedliche Zugangs- 
bedingungen und Lizenzoptionen für Forschungsdaten. Diese müssen zu den Daten selbst 
sowie zu den Bedürfnissen der Datenproduzentinnen und -produzenten sowie der Nutzenden 
passen. So ermöglichen nicht alle Repositorien, Forschungsdaten für einen begrenzten Zeit- 
raum unter ein Embargo zu setzen oder Zugangsbeschränkungen für sensitive Daten einzu- 
richten. Beispielsweise erlaubt Dryad eine Veröffentlichung von Daten nur unter einer CCO- 
Lizenz, d.h. ohne jegliche Einschränkungen der Nutzung (vgl. Dryad 2018). Haben For- 


4 Eine Checkliste zur Auswahl eines geeigneten Repositoriums bietet Whyte (2015). Ein kriteriengeleiteter Ver- 
gleich ausgewählter Dienste findet sich bei Gautier und Murphy (2018). 
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schende Befragten zugesichert, dass ihre Daten nur wissenschaftlich genutzt werden diirfen, 
können diese Daten nicht unter einer CCO-Lizenz veröffentlicht werden. 

Kuratierungslevel: Wie oben dargestellt, unterscheiden sich Angebote zur Sicherung und 
Bereitstellung von Daten häufig hinsichtlich der durchgeführten Kuratierung. Viele Ange- 
bote sichern und veröffentlichen Daten nur unverändert und mit den von den Datengebenden 
vergebenen Metadaten. Andere — unter Umständen auch kostenpflichtige — Dienste prüfen 
Qualität und Konsistenz der Daten, transformieren sie in Archivierungs- und Nutzungsfor- 
mate und schaffen Mehrwerte, indem sie Daten umfassend erschließen und mit weiteren In- 
formationen anreichern. Die Frage, welches Kuratierungslevel für die jeweiligen Daten an- 
gemessen ist, ist nicht immer einfach zu beantworten. Sie hängt einerseits von der Bedeutung 
und Einmaligkeit der Daten sowie zukünftigen Nutzungsszenarien, andererseits von den ver- 
fügbaren Mitteln ab. Hinweise zur Auswahl von Daten für die Archivierung gibt das Digital 
Curation Centre (2014). 

Services für Datengebende: Existierende Dienste unterscheiden sich z.B. im Umfang der 
Beratungs- und Unterstützungsleistungen für Forschende. Ein weiteres Kriterium kann die 
Verfügbarkeit von Zugriffsstatistiken oder sogenannter Altmetrics sein (vgl. Neylon 2014), 
die für Forschende eine wichtige Rolle dabei spielen können, ihren wissenschaftlichen Im- 
pact zu dokumentieren. Auch die Einbindung des ORCID-Diensts kann ein für Forschende 
relevanter Mehrwert sein. 

Kosten: Es gibt eine große Bandbreite an kostenlosen Diensten, sowohl von öffentlich 
finanzierten Einrichtungen als auch von kommerziellen Anbietern. Kosten für die Datenge- 
benden können z.B. dann entstehen, wenn seitens des Repositoriums die Daten noch aufwän- 
dig bearbeitet oder mit Informationen angereichert werden oder wenn ein großer Speicher- 
bedarf besteht. Gleichfalls können Kosten für besondere Formen der Zugänglichmachung 
anfallen. Solche Kosten sollten idealerweise direkt bei der Projektplanung berücksichtigt 
werden und in Anträge auf Projektförderung Eingang finden. 

Oualität und Reputation des Diensts: Um zu einer Einschätzung der Qualität und Repu- 
tation zu gelangen, können Forschende auf folgende Aspekte achten: Wird das Repositorium 
von Fachgesellschaften, Zeitschriften, Verlagen empfohlen? Zudem können bei der Beant- 
wortung der Frage, ob ein Dienst in der Lage ist, die langfristige Sicherung und Kuratierung 
mit dem Ziel des Erhalts der Nutzbarkeit der Forschungsdaten zu leisten, vorliegende Zerti- 
fizierungen und Akkreditierungen hilfreich sein. Es existiert eine Reihe von Verfahren, die 
die Qualität und fachliche Expertise von Repositorien bewerten. Das Data Seal of Approval 
(DSA) und ICSU World Data System (WDS), welche unterdessen vom CoreTrustSeal (CTS) 
abgelöst wurden, sowie das (nicht forschungsdatenspezifische) nestor-Siegel für vertrauens- 
würdige digitale Langzeitarchive setzen einen Schwerpunkt beim Aspekt der Langzeitarchi- 
vierung, beziehen aber dennoch disziplinspezifische Aspekte und die Dimension der Nutz- 
barkeit archivierter Objekte mit ein. Das Akkreditierungsverfahren des Rats für Sozial- und 
Wirtschaftsdaten (RatSWD) hingegen legt einen starken Fokus auf fachspezifische Aspekte 
sowie auf die Bereitstellung von Forschungsdaten für die wissenschaftliche Nutzung. Er- 
wähnt werden soll hier auch das DINI-Zertifikat. Dieses richtet sich hauptsächlich an soge- 
nannte Hochschulschriftenserver, d.h. primär Repositorien für Textpublikationen. Es evalu- 
iert insbesondere Aspekte, die im Zusammenhang mit Open Access zu Publikationen von 
Bedeutung sind (Zugänglichkeit, Sichtbarkeit, etc.). Durch seine Ausrichtung hat das DINI- 
Zertifikat eine eher geringe Aussagekraft bezüglich der Qualität von Forschungsdatenrepo- 
sitorien — dennoch kann es Hinweise darauf geben, ob ein Dienst seine Arbeitsabläufe kri- 
tisch reflektiert hat und Mechanismen zur Qualitätssicherung bestehen. 

Sofern möglich, sollten Forschende bei der Auswahl eines geeigneten Dienstes fachlichen 
Repositorien den Vorzug geben, die sich einer der erwähnten Zertifizierungen oder Akkre- 
ditierungen unterzogen haben. Damit können sie sicher sein, dass die entsprechenden Dienste 
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grundsätzlich in der Lage sind, Forschungsdaten fachgerecht und nachhaltig zu kuratieren 
und für die wissenschaftliche Nutzung bereitzustellen. Zudem erfüllen zertifizierte Dienste 
in der Regel die Anforderungen von Forschungsförderern, die zunehmend verlangen, dass 
Forschungsdaten nach Abschluss der Förderphase zur Verfügung gestellt werden. 


7.6 Fazit 


Der Fokus von Forschenden ist in erster Linie darauf gerichtet, die für die jeweiligen For- 
schungsfragen benötigten Daten zu erzeugen, zu verwalten und auszuwerten. Um die Nach- 
vollziehbarkeit der Forschungsergebnisse zu gewährleisten und/oder die generierten For- 
schungsdaten Dritten für die Nutzung in neuen Kontexten und Projekten zugänglich zu ma- 
chen, muss aber auch die Zeit nach der aktiven Projektphase in der Forschungsdatenmanage- 
mentplanung berücksichtigt und gezielt vorbereitet werden. Hierzu sollten Forschende sich 
frühzeitig eine Orientierung über die vielfältigen, teils neuen Möglichkeiten verschaffen, ihre 
Daten (langfristig) zu sichern und zu veröffentlichen und insbesondere die reichhaltigen In- 
formations- und Beratungsangebote in Anspruch nehmen. 
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8. Forschungsdatenmanagement in der Sekundäranalyse 


Sebastian Netscher und Jessica Trixa 


Die Verfiigbarkeit von Forschungsdaten ist fiir Forschende in den empirischen Sozialwissen- 
schaften eine notwendige Voraussetzung ihres wissenschaftlichen Arbeitens. Bedingt durch 
moderne Arbeitsinstrumente stieg in den letzten Jahren nicht nur das Volumen an For- 
schungsdaten, sondern auch deren Komplexitat stetig an (Ludwig/Enke 2013: 13). Auffallig 
ist dabei die wiederholte Erhebung von vergleichbaren Forschungsdaten in ähnlichen Kon- 
texten durch unterschiedliche Forschungsprojekte. So neigen immer noch viele Forschende 
dazu, die für ihre Forschungsarbeit notwendigen Daten selbst zu erheben und aufzubereiten. 
Die Möglichkeit, bereits existierende Forschungsdaten systematisch zu evaluieren und im 
Rahmen einer Sekundäranalyse nachzunutzen, wird hingegen nur bedingt wahrgenommen. 

Unter dem Begriff der Sekundäranalyse verstehen wir im Folgenden die „Methode, be- 
reits vorhandenes Material (Primärerhebung) unabhängig von dem ursprünglichen Zweck 
und Bezugsrahmen der Datensammlung auszuwerten“ (Friedrichs 1990: 353). Mit anderen 
Worten werden in der Sekundäranalyse „keine Daten erhoben, vielmehr wird aufbereits exis- 
tierende Datenbestände zurückgegriffen“ (Stier 1996: 234). Dieser Rückgriff ist jedoch an 
eine Reihe von Voraussetzungen geknüpft. Hierzu gehören u.a. die Zugänglichkeit und Ver- 
ständlichkeit der Ausgangsdaten ebenso wie entsprechende Nachnutzungsrechte. Dement- 
sprechend hängt die Möglichkeit, Forschungsdaten für die Sekundäranalyse nutzen zu kön- 
nen, auch davon ab, ob die Primärforschenden, d.h. die ursprünglichen Datenproduzierenden, 
entsprechende Maßnahmen in ihrem Forschungsdatenmanagement berücksichtigt haben. 

Doch auch in der Sekundäranalyse ist ein geeignetes Forschungsdatenmanagement als 
Teil guter wissenschaftlicher Praxis von zentraler Bedeutung. Es fördert den reibungslosen 
Ablauf im Forschungsprojekt und ist eine grundlegende Voraussetzung zur erfolgreichen 
Umsetzung des Forschungsvorhabens. Es sichert Transparenz im Forschungsprojekt und er- 
möglicht die Replikation erzielter Forschungsergebnisse ebenso wie die Reproduktion gene- 
rierter Forschungsdaten (Büttner/Hobohm/Müller 2011; Freese 2007; Fowler 1995). Darüber 
hinaus kommen Forschende mit Hilfe des Forschungsdatenmanagements in der Sekundär- 
analyse ggf. Auflagen Dritter nach, z.B. im Rahmen der Publikation ihrer Forschungsergeb- 
nisse (Pampel/Bertelmann 2011). So fordern etwa im deutschsprachigen Raum immer mehr 
Journals die Replizierbarkeit von Forschungsergebnissen ebenso wie die Reproduzierbarkeit 
von Forschungsdaten aktiv ein, wie z.B. die Politische Vierteljahresschrift oder die Zeit- 
schrift für Soziologie. Schließlich bedeutet die Nachnutzung bereits existierender For- 
schungsdaten nicht per se, dass dabei keine ‚neuen‘ Forschungsdaten erzeugt werden. So 
kann das Zusammenspielen unterschiedlicher Individualdatensätze, etwa über Regionalein- 
heiten wie Länder oder über die Zeit hinweg, zur Erstellung neuer Daten in der Sekundär- 
analyse führen (vgl. z.B. Schnell/Hill/Esser 2013: 242f; Jensen 2012: 11). Die dem Zusam- 
menspielen zugrunde liegenden Harmonisierungskonzepte (zur softwarebasierten Dokumen- 
tation der Harmonisierung von Variablen vgl. z.B. Winters/Netscher 2016: 5f.) sind dabei 
möglicherweise wiederum für Dritte zur weiteren Nutzung von Interesse. 

Trotz dieser vielfältigen Gründe für ein Forschungsdatenmanagement in der Sekundär- 
analyse fehlen in den Sozialwissenschaften bislang allgemein anerkannte Standards. Um die- 
ser Lücke zu begegnen, versucht das vorliegende Kapitel eine erste Beschreibung des For- 
schungsdatenmanagements in der Sekundäranalyse quantitativer sozialwissenschaftlicher 
Daten. Der Schwerpunkt dieses Kapitels liegt in der Reproduzierbarkeit der verwendeten 
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Daten. Die Replizierbarkeit der Forschungsergebnisse, etwa durch die Sicherung entspre- 
chender Programmcodes zur Datenanalyse, werden in diesem Kapitel hingegen nicht weiter 
thematisiert. Interessierte Lesende finden grundlegende Hinweise und Verfahrensweisen zur 
Dokumentation der Datenanalyse beispielsweise bei Scott J. Long (2009) oder Thomas Ebel 
(2016). 

Im folgenden Abschnitt (8.1) werden zunächst einige Voraussetzungen zur Nachnutzung 
bereits existierender Daten erörtert, wie deren Auffindbarkeit und Verständlichkeit oder be- 
stehende Nachnutzungsrechte. Daran anschließend werden in Abschnitt 8.2 Gemeinsamkei- 
ten und Unterschiede im Forschungsdatenmanagement der Primärerhebung und der Sekun- 
däranalyse diskutiert. Aufbauend darauf unterbreiten wir in Abschnitt 8.3 einen Vorschlag 
zur einfachen Dokumentation der Erstellung von Forschungsdaten in der Sekundäranalyse 
im Rahmen einer Aufbereitungssyntax. Das Kapitel schließt mit einer kurzen Diskussion der 
Bedeutung und der Möglichkeiten des Forschungsdatenmanagements in der Sekundärana- 
lyse (Abschnitt 8.4). 


8.1 Die Sekundäranalyse von Forschungsdaten 


Je nach Datenlage weist die Sekundäranalyse im Vergleich zur Primärerhebung einige Vor- 
teile auf. Forschende sparen durch die Nachnutzung bereits erhobener Forschungsdaten so- 
wohl finanzielle als auch zeitliche Ressourcen, etwa durch den Wegfall der kosten- und ar- 
beitsintensiven Datenerhebung. Stattdessen sind die Forschungsdaten in der Sekundärana- 
lyse direkt verfügbar und ermöglichen es, schnell Forschungsergebnisse zu erzielen und zu 
publizieren. Förderer können freiwerdende Ressourcen ihrerseits wiederum in neue For- 
schungsprojekte investieren (Schnell/Hill/Esser 2013; Friedrichs 1990). Zuletzt profitieren 
auch die Befragten von der Sekundäranalyse. Vor allem bei schwer erreichbaren Personen- 
gruppen oder zu erhebenden sensiblen Informationen stellt die Nachnutzung bereits existie- 
render Forschungsdaten eine Alternative zur wiederholten Datenerhebung dar (vgl. zu prak- 
tischen und ethischen Aspekten z.B. Medjedovic 2014: 31ff.). 

Die Durchführung einer Sekundäranalyse ist jedoch an verschiedene inhaltliche, analyti- 
sche und rechtliche Voraussetzungen der Ausgangsdaten gebunden. Um diese näher zu be- 
leuchten, erörtert der vorliegende Abschnitt zunächst die inhaltliche Nachnutzbarkeit von 
Forschungsdaten, d.h. den Prozess des Auffindens geeigneter Ausgangsdaten für die Sekun- 
däranalyse. Darauf aufbauend werden deren analytische und rechtliche Nachnutzbarkeit the- 
matisiert. Damit bereits erhobene Forschungsdaten in der Sekundäranalyse verwendet wer- 
den können, müssen diese sowohl verständlich sein als auch unter rechtlichen Aspekten des 
Datenschutzes ebenso wie des Urheberrechts zur Nachnutzung verfügbar sein. Schließlich 
müssen potentiell geeignete Ausgangsdaten für die Sekundäranalyse valide und je nach For- 
schungsansatz ggf. mit weiteren Daten kombinierbar sein. 


8.1.1 Das Auffinden geeigneter Ausgangsdaten 


Eine der größten Herausforderungen im Vorfeld der Sekundäranalyse stellt das Auffinden 
geeigneter Ausgangsdaten dar. Diese müssen inhaltlich nachnutzbar sein, d.h. eine adäquate 
Beantwortung der Forschungsfrage ermöglichen. Ausschlaggebende Merkmale für die in- 
haltliche Nachnutzbarkeit sind a) die für die Sekundäranalyse relevanten Informationen und 
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b) die dabei zugrunde liegende Untersuchungspopulation (Schnell/Hill/Esser 2013; Stier 
1996; Friedrichs 1990). 

Um inhaltlich nachnutzbare Daten für die Sekundäranalyse zu finden, stehen Forschen- 
den unterschiedliche Möglichkeiten zur Verfügung. Erste Anhaltspunkte können individuelle 
Netzwerke, Konferenzen sowie publizierte Forschungsarbeiten liefern. Darüber hinaus bie- 
ten Forschungsdatenzentren, Repositorien und Datenarchive gute Anlaufstellen. Viele dieser 
Einrichtungen stellen Datenbestandskataloge bereit, die Forschende zur Recherche nach ge- 
eigneten Ausgangsdaten heranziehen können. Dabei ist die jeweilige Forschungsfrage für die 
Recherche nach geeigneten Ausgangsdaten entscheidend. Aus ihr werden entsprechende 
Suchbegriffe sowohl mit Bezug auf die notwendigen Informationen als auch mit Blick auf 
die anvisierte Untersuchungspopulation abgeleitet. Die Suchstrategie der Forschenden kann 
jedoch auch ein grundlegendes Kriterium dafür sein, dass die Recherche eine gute oder eine 
erfolglose Trefferquote erzielt. So werden in einigen Suchsystemen beispielsweise alle ein- 
gegebenen Suchwörter gemeinsam in die Suche einbezogen. Als Konsequenz werden häufig 
keine oder nur sehr wenige Treffer erzielt. Daher bietet es sich an, die wichtigsten Konzepte 
der eigenen Forschungsfrage mit Hilfe Boole‘scher Operatoren zu verbinden, etwa durch die 
Nutzung des Boole‘schen UND zur Verknüpfung der Schlüsselwörter zu einem Such-String 
oder des Boole‘schen ODER zur erweiterten Suche. Ebenso kann der Einsatz von sogenann- 
ten Trunkierungen oder Maskierungen, wie beispielsweise das Sternchensymbol (*) oder das 
Fragezeichen (?), die Suche durch alternative Schreibweisen erleichtern (Kolle 2012: 57ff). 

Schaukasten 8.1 konkretisiert anhand eines fiktiven Beispiels die Merkmale von Aus- 
gangsdaten, die für die inhaltliche Nutzbarkeit unabdingbar sind. Ausgehend von den not- 
wendigen Informationen müssen in den Ausgangsdaten alle relevanten Variablen enthalten 
sein, die zur Beantwortung der jeweiligen Forschungsfrage erforderlich sind. Beispielsweise 
setzt die Frage nach dem Erstarken rechter Parteien bei Nationalwahlen in Europa im Zuge 
der Wirtschaftskrise 2009 Angaben über das individuelle Wahlverhalten (abhängige Vari- 
able) sowie Informationen zu den Gründen der individuellen Wahlentscheidung (unabhän- 
gige Variable) voraus. 

Wurden die relevanten Informationen überprüft, ist zu klären, ob die potentiellen Aus- 
gangsdaten die für die Analyse notwendige Untersuchungspopulation repräsentieren. Dies 
betrifft erstens die Untersuchungsobjekte als solche, wie in unserem Beispiel etwa Wähler 
bei Nationalwahlen. Zweitens muss die Untersuchungspopulation der Ausgangsdaten den 
entsprechenden Untersuchungsraum abdecken, wie z.B. die Staaten in Europa. Drittens muss 
auch der Untersuchungszeitraum auf Basis des Erhebungszeitpunkts der Ausgangsdaten bzw. 
deren zeitlicher Horizont mit der zugrunde liegenden Forschungsfrage der Sekundäranalyse 
übereinstimmen. Dementsprechend müssen die Daten beispielsweise als Querschnitt, Längs- 
schnitt oder Panel vorliegen oder in Form von Ereignisdaten aufbereitet sein. In Bezug auf 
unser Beispiel müssen geeignete Ausgangsdaten etwa einen Zeitraum vor, während und nach 
dem Eintreten der Wirtschaftskrise 2009 abdecken (vgl. Schaukasten 8.1). 

Erweisen sich mehrere Ausgangsdatensätze als inhaltlich nachnutzbar, gilt es, die Vor- 
und Nachteile jedes einzelnen Datensatzes sorgfältig zu durchdenken und diese gegeneinan- 
der abzuwägen. Beide im Schaukasten vorgestellten Datensätze ermöglichen die inhaltliche 
Bearbeitung der aufgeworfenen Forschungsfrage. Sowohl die Comparative Study of Elec- 
toral Systems (CSES 2014) als auch die sogenannte Voter Study der European Parliament 
Election Study (EES) (Schmitt et al. 2015) liefern Angaben zum individuellen Wahlverhalten 
sowie zu den Gründen der individuellen Wahlentscheidung. Im Gegensatz zur CSES bezieht 
sich die EES aber auf die Europaparlamentswahl und fragt nur retrospektiv nach der Stimm- 
abgabe bei der vorausgegangenen Nationalwahl. 
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Schaukasten 8.1: Das Auffinden geeigneter Ausgangsdaten für die Sekundaranalyse 


Forschungsfrage: Führte die Wirtschaftskrise 2009 in Europa zum Erstarken rechter Parteien bei National- 
wahlen? 


Inhaltlich geeignete Ausgangdaten müssen: 


1. Informationen zur individuellen Stimmabgabe bei der Nationalwahl (abhängige Variable) sowie zu 
den Motiven der Wahlentscheidung (unabhängige Variable) beinhalten, 

2. sich auf die wahlberechtigte Bevölkerung in Europa vor, während und nach der Wirtschaftskrise 2009 
beziehen. 


Aufbauend auf diesen beiden Faktoren lassen sich unterschiedliche sozialwissenschaftliche Datensätze in 
Bezug auf ihre inhaltliche Nachnutzbarkeit beurteilen, wie z.B.: 


a) die European Parliament Election Study, Voter Study (EES) zum Wahlverhalten von EU-Bürgern bei 
der Europaparlamentswahl: 
1. Untersuchungsaspekt: 


e abhängige Variable: retrospektive Stimmabgabe bei der vorausgegangenen Nationalwahl, 
* unabhängige Variable: größte Herausforderungen im jeweiligen Land vor der Europaparla- 
mentswahl, 


2. Untersuchungspopulation: wahlberechtigte Bevölkerung in den Staaten der Europäischen Union 
nach der Europaparlamentswahl 2009 bzw. 2014. 


b) Die Comparative Study of Electoral Systems (CSES) harmonisiert Nachwahlbefragungen zu den 
Nationalwahlen aus der ganzen Welt: 


1. Untersuchungsaspekt: 


e abhängige Variable: Stimmabgabe bei der jeweiligen Nationalwahl, 
* unabhängige Variable: größte Herausforderungen im jeweiligen Land vor der Nationalwahl, 


2. Untersuchungspopulation: wahlberechtigte Bevölkerung bei den Nationalwahlen zwischen 2005 
und 2011 (drittes Modul der CSES). 


Quelle: Eigene Darstellung 


Umgekehrt deckt die EES mit ihren 27 (bzw. 28) EU-Mitgliedsstaaten einen weitaus größe- 
ren geographischen Raum in Europa ab als die CSES. Für diese spricht wiederum der Erhe- 
bungszeitpunkt, da sie Daten vor, während und nach der Wirtschaftskrise 2009 beinhaltet. 
Insgesamt wären im vorliegenden Beispiel die Daten der CSES aufgrund ihres Informations- 
gehalts zum Wahlverhalten bei der Nationalwahl und dem Erhebungszeitraum jenen der EES 
vorzuziehen. 


8.1.2 Die analytische und rechtskonforme Nutzbarkeit der Ausgangsdaten 


Neben dem enthaltenen Analysepotential hängt die Nutzung der Ausgangsdaten auch von 
verschiedenen analytischen und rechtlichen Bedingungen ab. Forschende, die geeignete Aus- 
gangsdaten für die Sekundäranalyse gefunden haben, müssen erstens klären, ob diese über- 
haupt analytisch sinnvoll genutzt werden können. Nur wenn die Ausgangsdaten eine entspre- 
chende Qualität, etwa in Bezug auf die verwendeten Messkonzepte oder die Teilnahmebe- 
reitschaft der befragten Personen, aufweisen und ausreichend dokumentiert sind, können 
Dritte diese vollständig nachvollziehen und beurteilen. Die Beurteilbarkeit der Qualität be- 
ruht u.a. auf dem Vorliegen von Informationen über die methodische Generierung der Aus- 
gangsdaten, deren Aufbereitung und Anonymisierung einschließlich der Dokumentation von 
Auffälligkeiten und Besonderheiten in den Daten. In Bezug auf das obige Beispiel liefert die 
CSES neben den Daten eine umfangreiche Dokumentation in Form eines Codebuchs, das die 
Variablen des Datensatzes vollständig, transparent und verständlich dokumentiert. Eine adä- 
quate methodische und inhaltliche Dokumentation, etwa in Form eines Methodenberichts, 
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ermöglicht erst die sinnvolle Interpretation der Ausgangsdaten ebenso wie die Generalisier- 
barkeit der auf den Daten basierenden Forschungsergebnisse. 

Zweitens müssen die Ausgangsdaten rechtskonform nachnutzbar sein. Dies betrifft vor 
allem die von den Urhebenden der Daten an die Nachnutzenden übertragenen Verwertungs- 
bzw. Nutzungsrechte. Häufig wird durch Lizenzen festgelegt, wer unter welchen Bedingun- 
gen und zu welchem Zweck auf die Daten zugreifen darf und in welcher Form diese nachge- 
nutzt werden können. So erfordern ggf. nicht oder nur schwach anonymisierte Daten die Ein- 
schränkung des Zugangs auf bestimmte Personengruppen und bestimmte Nachnutzungszwe- 
cke. Fehlen entsprechende Nutzungsrechte beispielsweise durch restriktive Nutzungsbedin- 
gungen, kann dies unter Umständen dazu führen, dass Forschende die Ausgangsdaten zwar 
erhalten und analysieren können, eine Publikation der Forschungsergebnisse aber ausge- 
schlossen ist. Mit Hinblick auf unser CSES-Beispiel sind die aufgeführten Daten frei verfüg- 
bar und dürfen — eine adäquate Zitation vorausgesetzt — durch jede Person zu jeglichem 
Zweck nachgenutzt werden. 


8.1.3 Die inhaltliche und methodische Validierung der Ausgangsdaten 


Sind die inhaltlichen, analytischen und rechtlichen Bedingungen geklärt, müssen Forschende 
die Daten in Bezug auf die der Sekundäranalyse zugrunde liegende Forschungsfrage validie- 
ren. Dabei sollten mindestens drei Arbeitsschritte berücksichtigt werden. Erstens gilt es, die 
Dokumentation der Ausgangsdaten, d.h. die zugehörigen Methodenberichte, Codebücher 
usw., zu prüfen. Darin beschrieben sind u.a. die Feldphase der Datengenerierung, die Grund- 
gesamtheit, das Stichprobenverfahren, die realisierten Interviews etc. Damit stellt die Doku- 
mentation Transparenz in den Ausgangsdaten sicher und liefert somit wichtige Hinweise auf 
die Datenqualität. 

Zweitens sollten die Randverteilungen zentraler soziodemographischer Variablen mit of- 
fiziellen bzw. amtlichen Statistiken verglichen werden, um sicherzustellen, dass die in den 
Ausgangsdaten enthaltene Untersuchungspopulation mit der in der Sekundäranalyse anvi- 
sierten Grundgesamtheit übereinstimmt. Zu bedenken sind dabei etwaige Abweichungen 
zwischen der offiziellen Statistik und der Untersuchungspopulation. So sind die Untersu- 
chungsobjekte unseres Beispiels wahlberechtigte Personen in den Staaten Europas. Dement- 
gegen beziehen sich die Daten der amtlichen Statistik, wie etwa von Eurostat (Eurostat: Data- 
base), zumeist auf die Wohnbevölkerung der einzelnen Länder. Zwischen den Randvertei- 
lungen der CSES und den Informationen von Eurostat können so Diskrepanzen im Hinblick 
auf die Untersuchungspopulationen entstehen, die bei der Validierung berücksichtigt werden 
müssen. 

Drittens müssen Forschende alle in der Sekundäranalyse zu nutzenden Variablen prüfen. 
Dies betrifft beispielsweise Anmerkungen zu einzelnen Variablen in der Datendokumenta- 
tion, etwa in Bezug auf Auffälligkeiten während der Datenerhebung. Ebenso sollten alle Va- 
riablen auf fehlende Werte bzw. Antwortverweigerungen sowie auf systematisches und in- 
konsistentes bzw. sich widersprechendes Antwortverhalten überprüft werden. Schließlich ist 
es notwendig, die Verteilungen aller relevanten Variablen zu kontrollieren. Verzerrte Vertei- 
lungen, häufig auftretende fehlende Werte, systematisches oder inkonsistentes Antwortver- 
halten usw. können die Analyse, die Ergebnisinterpretation sowie die Generalisierbarkeit der 
Forschungsergebnisse u.U. nachhaltig beeinflussen (vgl. zu Antworttendenzen in standardi- 
sierten Umfragen den Beitrag von Bogner/Landrock 2015; vgl. zur Datenkontrolle Jensen 
2012: 32ff.). 
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8.1.4 Das Zusammenspielen unterschiedlicher Ausgangsdatensätze 


Für die Sekundäranalyse werden häufig unterschiedliche Datensätze zusammengespielt, zu- 
meist als data oder record linkage bezeichnet (Schnell/Hill/Esser 2013: 246). Dadurch kön- 
nen z.B. die zu analysierende Grundgesamtheit erweitert, statistische Inferenzen abgesichert 
oder die Ausgangsdaten um zusätzliche Informationen angereichert werden. Zusätzliche In- 
formationen können hierbei beispielsweise administrative oder georeferenzierte Kontextda- 
ten sein. In Bezug auf das obige Beispiel ließen sich die Individualdaten der CSES um den 
Datensatz der British Election Study (BES) aus dem Jahr 2010 erweitern (Whiteley/Sanders 
2014). Analog können die Individualdaten um Aggregatdaten, beispielswiese zum Bruttoso- 
zialprodukt oder der Arbeitslosenquote auf Basis von Eurostatdaten (Eurostat: Database), 
ergänzt werden. Damit würde sich nicht nur die Anzahl an Untersuchungsobjekten auf der 
Individualebene erhöhen, sondern es käme auch zu einer Ausweitung des Untersuchungs- 
raums um Großbritannien. Zudem wäre eine Anreicherung der Forschungsdaten um makro- 
ökonomische Kenngrößen möglich. 

Das Zusammenspielen von unterschiedlichen Ausgangsdaten ist wiederum an diverse 
Voraussetzungen geknüpft. Hierzu zählen gleichermaßen die inhaltlichen, analytischen und 
rechtlichen Bedingungen der Nachnutzbarkeit aller Ausgangsdatensätze ebenso wie deren 
Validierung. Darüber hinaus treten neue Anforderungen auf, wie die Vergleichbarkeit der zu 
verwendenden Variablen, der zugrunde liegenden Messkonzepte sowie die Vergleichbarkeit 
der Stichproben bzw. Grundgesamtheiten. So muss beispielsweise vor dem Zusammenspie- 
len der CSES-Daten mit den Kontextdaten von Eurostat sichergestellt werden, dass deren 
Untersuchungspopulationen vergleichbar sind. Während etwa die Individualdaten der CSES 
im Nachgang der jeweiligen Nationalwahl erhoben wurden, sind die Angaben von Eurostat 
quartalsweise erhältlich und müssen auf der Ebene der einzelnen Länder der CSES approxi- 
mativ an die Individualdaten angeglichen werden. 

Zur Sicherstellung der Vergleichbarkeit der verwendeten Variablen bzw. Messinstru- 
mente sollten Forschende zunächst alle relevanten Fragen und Antwortvorgaben in den ur- 
sprünglichen Fragebögen der Studien prüfen (vgl. z.B. Winters/Netscher 2016: 9f.). Bezogen 
auf unser Beispiel sollten etwa die Messinstrumente bzw. Originalfragen der BES mit den 
Fragevorgaben der CSES abgeglichen werden, um sicherzustellen, dass diese vergleichbar 
sind und die darauf aufbauenden Variablen harmonisiert werden können. Dieser Prozess der 
Variablenharmonisierung ist vor allem dann unkompliziert, wenn die Fragen und Antwort- 
kategorien in den Fragebögen eine hohe Übereinstimmung aufweisen. Dann kann jeder Ka- 
tegorie einer Variablen eines Ausgangsdatensatzes, wie etwa der CSES, exakt eine Kategorie 
der entsprechenden Variablen der anderen Ausgangsdaten, z.B. der BES, zugewiesen wer- 
den. Von höherer Komplexität ist die Harmonisierung, wenn in den Ausgangsdaten zwar 
vergleichbare Messkonzepte genutzt wurden, die zugrunde liegenden Fragen und Antwort- 
kategorien jedoch nicht übereinstimmen bzw. vergleichbar sind. Forschende müssen dann 
genau überlegen, inwiefern die unterschiedlichen Variablen und Codes in den Ausgangsda- 
ten doch aneinander angeglichen werden können und in welchem Maß dies die Forschungs- 
ergebnisse, ihre Interpretation und Generalisierbarkeit beeinflusst (vgl. ebenda: 9f.). 
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8.2 Forschungsdatenmanagement in der Primär- und 
Sekundäranalyse 


Ein Grundpfeiler der Forschung ist das Prinzip der Transparenz von Forschungsergebnissen 
und damit der Grundsatz der Reproduzierbarkeit von Forschungsdaten (Büttner/Hobohm/ 
Müller 2011; Freese 2007; Fowler 1995). Um die Reproduzierbarkeit der Forschungsdaten 
in der Sekundäranalyse zu gewährleisten, empfiehlt sich ein systematisches Forschungsda- 
tenmanagement, wie es in der Primärerhebung mittlerweile weit verbreitet ist. Darüber hin- 
aus schließt die Nachnutzung bereits existierender Daten nicht aus, dass in der Sekundärana- 
lyse nicht durchaus auch ‚neue‘ Daten generiert werden können, die für Dritte wiederum 
einen Nachnutzungswert besitzen. Dies lässt sich sehr einfach an unserem Beispiel erkennen. 
Bislang ist die BES (2010) nicht in die dritte Welle der CSES integriert. Beginnen For- 
schende nun im Rahmen ihres Projekts die beiden Datensätze zu harmonisieren und zu in- 
tegrieren, so hat dieser integrierte Datensatz ggf. einen Mehrwert für andere Forschende, die 
ebenfalls die beiden Datensätze zusammenspielen möchten. 

Entgegen dem Prinzip transparenter Forschung und der Möglichkeit, Forschungsergeb- 
nisse, wie etwa einen integrierten Datensatz oder das entsprechende Harmonisierungskon- 
zept, nachzunutzen, fehlen in der sozialwissenschaftlichen Praxis bislang allgemein aner- 
kannte Standards für ein Forschungsdatenmanagement in der Sekundäranalyse. Ansätze bie- 
ten einerseits das wissenschaftliche Paradigma der Reproduzierbarkeit (King 1995). Ande- 
rerseits liefern Standards des Forschungsdatenmanagements in der Primärerhebung grundle- 
gende Hinweise. Der folgende Abschnitt erörtert in diesem Zusammenhang zunächst Ge- 
meinsamkeiten des Forschungsdatenmanagements in Primärerhebung und Sekundäranalyse. 
Darauf aufbauend wird aufgezeigt, wo sich das Forschungsdatenmanagement der Sekundär- 
analyse von jenem der Primärerhebung unterscheidet und welche zusätzlichen Anforderun- 
gen die Sekundäranalyse an das Forschungsdatenmanagement stellt. 


8.2.1 Gemeinsamkeiten des Forschungsdatenmanagements 


Gemeinsamkeiten der Primärerhebung und der Sekundäranalyse finden sich bei unterschied- 
lichen Aspekten des Forschungsdatenmanagements. Grundsätzlich unterstützt das For- 
schungsdatenmanagement auch in der Sekundäranalyse die erfolgreiche Umsetzung des For- 
schungsprojekts. So etwa im Rahmen der Organisation und Handhabung der Forschungsda- 
teien (s. Kapitel 5). Regelungen zur Benennung und Versionierung von Arbeitsdateien, deren 
Sicherung gegen Verlust (Back-ups) oder die Definition von Zuständigkeiten im Rahmen des 
Forschungsdatenmanagements müssen in Forschungsprojekten der Sekundäranalyse ge- 
nauso geklärt werden wie bei Primärerhebungen. 

Gleichfalls müssen in Primärerhebung wie Sekundäranalyse die jeweils verwendeten For- 
schungsdaten adäquat dokumentiert werden. Dadurch wird auch in der Sekundäranalyse die 
Verständlichkeit, Nachvollziehbarkeit und Interpretierbarkeit der Forschungsdaten sicherge- 
stellt. Dies betrifft beispielsweise die Kodierung neuer Variablen, die dazu genutzten Metho- 
den bzw. Standards sowie die eindeutige Benennung der enthaltenen Variablen und ihrer 
Codes. 

Auch in Bezug auf die längerfristige Sicherung relevanter Forschungsdateien über das 
Projektende hinaus unterscheiden sich das Forschungsdatenmanagement der Primär- und Se- 
kundäranalyse kaum voneinander. In beiden Fällen gilt es, alle zur Reproduktion bzw. Nach- 
nutzung notwendigen Forschungsdaten zu dokumentieren, entsprechende begleitende Doku- 
mentationen zu erstellen und diese Forschungsdateien am Projektende zu sichern bzw. zu 
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archivieren. Bei allen derartigen Aspekten kann das Forschungsdatenmanagement der Se- 
kundäranalyse auf bereits existierende Vorgaben und Standards der Primärerhebung zurück- 
greifen und entsprechende Verfahrensweisen übernehmen oder anpassen. 


8.2.2 Unterschiede im Forschungsdatenmanagement 


Neben den Gemeinsamkeiten des Forschungsdatenmanagements existieren auch einige in 
der Primärerhebung besonders wichtige Aspekte, die hinsichtlich der Nachnutzung bereits 
existierender Forschungsdaten jedoch eher eine zweitrangige Rolle spielen. Dies zeigt sich 
beispielsweise in der Dokumentation der Datenerhebung. So muss das Forschungsdatenma- 
nagement der Primärerhebung detailliert beschreiben, wie die Primärdaten erhoben und auf- 
bereitet wurden. In der Sekundäranalyse geht es hingegen vor allem um die Nachvollzieh- 
barkeit der verwendeten Forschungsdaten und deren Wiederauffindbarkeit durch Dritte. Dies 
impliziert beispielsweise, dass die Forschenden in der Sekundäranalyse die Wahl der Aus- 
gangsdaten begründen und vor Beginn der Analyse deren Nachnutzbarkeit unter inhaltlichen, 
analytischen und rechtlichen Aspekten überprüfen. 

Ähnlich finden sich auch im Hinblick auf datenschutzrechtliche Aspekte signifikante Un- 
terschiede zwischen dem Forschungsdatenmanagement der Primärerhebung und der Sekun- 
däranalyse. Im Rahmen der Primärerhebung werden neue Forschungsdaten durch das syste- 
matische Sammeln von Informationen generiert. Beinhalten diese Informationen sogenannte 
personenbezogene Angaben, dann bedarf es im Rahmen der datenschutzkonformen Nutzung 
solcher Daten zunächst der informierten Einwilligung der Befragten zu deren Erhebung, 
Speicherung und Verarbeitung, wie im ersten Abschnitt des vierten Kapitels näher ausge- 
führt. In der Sekundäranalyse wird hingegen auf bereits existierende Forschungsdaten zu- 
rückgegriffen, sodass die Sekundärforschenden keine weitere Einwilligung der ursprüngli- 
chen Befragten mehr einholen müssen. Selbstverständlich darf die informierte Einwilligung 
die Möglichkeit der Nachnutzung von Forschungsdaten im Rahmen der Sekundäranalyse 
nicht ausschließen. Diese ist aber Teil der Primärerhebung und für die Sekundärforschenden, 
soweit vorhanden, irrelevant. 

Analog unterscheiden sich das Forschungsdatenmanagement der Primärerhebung und der 
Sekundäranalyse mit Blick auf Auflagen zur Anonymisierung. In der Regel arbeiten Sekun- 
därforschende mit bereits anonymisierten Forschungsdaten und werden insofern nicht weiter 
mit Fragen des Datenschutzes und der Datenanonymisierung konfrontiert. Ausnahmen fin- 
den sich etwa im Hinblick auf die Nachnutzung nicht oder nur schwach anonymisierter Da- 
ten. Werden derartige Forschungsdaten in der Sekundäranalyse nachgenutzt, so sind die Se- 
kundärforschenden selbstverständlich dazu verpflichtet, entsprechende Datenschutzmaßnah- 
men, wie beispielsweise das geschützte Speichern der Informationen, einzuhalten. 

Zuletzt zeigen sich Differenzen mit Hinblick auf das Urheberrecht. Generell gilt, dass bei 
der Nachnutzung von Forschungsmaterialien, wie Forschungsdaten, Methoden oder Mess- 
konzepten, das Urheberrecht und die damit verbundenen Nutzungsrechte zu beachten sind. 
Bestehende Unterschiede liegen aber gerade im Urheberrecht an den Forschungsdaten. Wäh- 
rend dies in der Primärerhebung zumeist bei den Forschenden, deren Forschungseinrichtun- 
gen oder den Förderern des Forschungsprojekts liegt, greifen Sekundärforschende möglich- 
erweise auf urheberrechtlich geschützte Werke anderer zurück. Dementsprechend bedarf es 
in der Sekundäranalyse der Zustimmung der Urheberrechtsinhaberinnen und Urheberrechts- 
inhaber zur Nachnutzung der Daten in Form entsprechender Verwertungsrechte, wie in Ka- 
pitel 7.2 im Kontext der Lizensierung näher erörtert. 
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8.2.3 Forschungsdaten in der Sekundäranalyse managen 


Betrachtet man die Unterschiede, die das Forschungsdatenmanagement der Primärerhebung 
und das der Sekundäranalyse aufweisen, genauer, dann fällt auf, dass trotz bestehender Dif- 
ferenzen gewisse Parallelen existieren. Dementsprechend lassen sich — wie bereits erwähnt — 
aus dem Forschungsdatenmanagement der Primärerhebung durchaus Vorgehensweisen für 
das Forschungsdatenmanagement der Sekundäranalyse ableiten. 

Dies zeigt sich z.B. im Prozess des Suchens und Auffindens geeigneter Forschungsdaten 
in der Sekundäranalyse. Analog zur Planung der Datenerhebung durch die Primärforschen- 
den steht am Anfang der Sekundäranalyse der Prozess des Auffindens geeigneter Ausgangs- 
daten. Die Ergebnisse dieser Recherchen sollten im Rahmen des Forschungsdatenmanage- 
ments der Sekundäranalyse beschrieben werden. Sie dienen der Begründung der Datenaus- 
wahl im Forschungsprojekt und erzeugen Transparenz etwa im Rahmen der Veröffentlichung 
der Forschungsergebnisse. Hierzu zählen beispielsweise Angaben zu den verwendeten Such- 
begriffen und Strategien oder zu den Gründen, einen bestimmten Ausgangsdatensatz nach- 
zunutzen bzw. andere, alternative Daten nicht zu berücksichtigen. 

Ähnliche Parallelen im Forschungsdatenmanagement der Primärerhebung und Sekundär- 
analyse zeigen sich in der Dokumentation der Forschungsdaten. In beiden Fällen dient diese 
der Transparenz und sichert die Verständlichkeit ebenso wie die Interpretierbarkeit der ver- 
wendeten Forschungsdaten. Die Dokumentation der Forschungsdaten in der Sekundärana- 
lyse beginnt jedoch stets mit der Dokumentation der Ausgangsdaten als zitierfahige Nach- 
weise der Datenquelle. In den letzten Jahren haben sich hierzu in den Sozialwissenschaften 
persistente Identifikatoren als Teil der Zitation etabliert, wie beispielsweise Digital Object 
Identifiers (DOI) oder Uniform Ressource Names (URN), wie im ersten Abschnitt des zehn- 
ten Kapitels weiter ausgeführt wird. Darüber hinaus müssen auch Sekundärforschende ge- 
währleisten, dass ihre Forschungsdaten transparent und reproduzierbar sind. Entsprechend 
muss die Datenaufbereitung, wie etwa der Ausschluss von Teilen der Untersuchungspopula- 
tion der Ausgangsdaten, die Harmonisierung von Variablen oder die Datenvalidierung doku- 
mentiert werden. 

In Bezug auf die rechtlichen Aspekte des Forschungsdatenmanagements können auch in 
der Sekundäranalyse nicht oder nur schwach anonymisierte Forschungsdaten neu entstehen. 
Dies ist etwa der Fall, wenn durch das Zusammenspielen unterschiedlicher Ausgangsdaten- 
sätze bereits anonymisierte Forschungsdaten de-anonymisiert werden. So kann beispiels- 
weise das Einspielen georeferenzierter Informationen, wie in Kapitel 12.3 beschrieben wird, 
dazu führen, dass natürliche Personen in den Individualdaten re-identifizierbar werden. In 
diesem Fall müssen Sekundärforschende selbstverständlich analog zur Primärerhebung die 
einschlägigen Regelungen des Datenschutzes beachten. 

Schließlich erlangen auch Sekundärforschende Urheberrechte an den von ihnen erzeug- 
ten Forschungsdateien, wie etwa an Konzepten zur Harmonisierung von Variablen unter- 
schiedlicher Ausgangsdatensätze. Dies ist vor allem dann von Relevanz, wenn derartige Kon- 
zepte für Dritte verfügbar gemacht werden sollen, egal ob zu Reproduktionszwecken oder 
zur weiteren Nutzung in neuen Forschungskontexten. 

Analog zur Generierung nachnutzbarer Forschungsdaten in der Primärerhebung stellt sich 
letztlich auch in der Sekundäranalyse die Frage nach den Plänen zum längerfristigen Umgang 
mit zentralen Forschungsdateien. Sowohl die Sicherung zu Reproduktionszwecken als auch 
die Bereitstellung etwa von nachnutzbaren Harmonisierungskonzepten ist jedoch keineswegs 
trivial. Zum einen gilt es festzulegen, welche vom Projekt generierten Forschungsdateien 
längerfristig gesichert werden sollen. Sekundärforschende haben aufgrund des Urheberrechts 
und entsprechender Nutzungsbedingungen der Ausgangsdaten in der Regel nicht das Recht, 
diese Ausgangsdaten zu archivieren oder gar Dritten verfügbar zu machen. Dies ist im 
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Rahmen der Sekundäranalyse aber ohnehin häufig nicht notwendig, da durch eine adäquate 
Zitation der Ausgangsdaten sichergestellt wird, dass diese auch zukünftig eindeutig identifi- 
zierbar und auffindbar sind. 

Zum anderen muss geklärt werden, wie lange die Forschungsdateien des eigenen Projek- 
tes aufbewahrt werden sollen und zu welchem Zweck dies geschieht. Dazu muss im Rahmen 
des Forschungsprojekts u.a. geplant werden, an welchem Ort, in welchen Formaten und mit 
welchen Sicherungsmaßnahmen die Forschungsdateien vor Verlust gesichert bzw. langfristig 
archiviert werden sollen. In Kapitel 3.2 werden diese Maßnahmen im Abschnitt zur Planung 
des Forschungsdatenmanagements über das Projektende hinaus genauer beschrieben. Es gilt 
auch festzulegen, wie der Zugang zu den Dateien für die originären Projetbeteiligten ebenso 
wie für Dritte sichergestellt werden kann. Zur Bereitstellung von Harmonisierungskonzepten 
zur Nachnutzung durch andere Forschende bieten sich hierfür beispielsweise Reproduktions- 
repositorien, wie z.B. der GESIS Replikationsserver, an (Ebel 2016). 


8.3 Die Aufbereitungssyntax als Dokumentation der Sekundäranalyse 


Sollen relevante Forschungsdateien der Sekundäranalyse längerfristig aufbewahrt bzw. Drit- 
ten zur weiteren Nutzung verfügbar gemacht werden, stellt sich die Frage, wie die Generie- 
rung dieser Daten am besten beschrieben werden kann (Winters/Netscher 2016; Dick- 
mann/Enke/Harms 2010). Generell können Sekundärforschende die Maßnahmen ihres For- 
schungsdatenmanagements in einem projektinternen Datenmanagementplan systematisch 
dokumentieren (vgl. Kapitel 2.4). Dieser kann gemeinsam mit der Aufbereitungssyntax, d.h. 
der Syntax zur Erstellung und Aufbereitung der Forschungsdaten, archiviert werden. Verse- 
hen mit einer eindeutigen Zitation des Datenmanagementplans und der Aufbereitungssyntax 
sowie mit entsprechenden Querverweisen in beiden Dateien, lassen sich die Forschungsdaten 
so reproduzieren. Die Vorteile an diesem Vorgehen liegen vor allem in der leichten Handha- 
bung sowie in der besseren Verständlichkeit der Aufbereitungssyntax. 

Nachteilig ist hingegen der Umstand, dass zur weiteren Verwendung der Aufbereitungs- 
syntax stets deren Dokumentation in Form des Datenmanagementplans notwendig ist. Ge- 
rade mit Blick auf eine mögliche Nachnutzung durch Dritte sollten bereits in der Aufberei- 
tungssyntax möglichst alle relevanten Informationen zur Reproduktion der Forschungsdaten 
gebündelt werden. Dazu kann diese um entsprechende Informationen zur Erstellung der For- 
schungsdaten für die Sekundäranalyse ergänzt werden, um so für Dritte transparent, ver- 
ständlich sowie nachvollziehbar und damit längerfristig nachnutzbar zu bleiben. 

Im Folgenden unterbreiten wir einen Vorschlag zur Struktur einer derartigen, erweiterten 
Aufbereitungssyntax und erörtern notwendige Informationen, die zusätzlich bereitgestellt 
werden sollten. Dabei orientieren wir uns an verschiedenen Leitlinienpapieren zur Repro- 
duktion von Forschungsdaten, etwa von Datenrepositorien, wie beispielsweise Dataverse, 
oder von Fachzeitschriften der Politik- (Gherghina/Katsanidou 2013) und der Wirtschafts- 
wissenschaften (Vlaeminck/Siegert 2012). Generell gilt, dass die bereitgestellten Informati- 
onen es Dritten erlauben müssen, die Generierung der Forschungsdaten im originären For- 
schungsprojekt nachzuvollziehen und zu verstehen. Hierzu zählen u.a. Angaben zum ur- 
sprünglichen Forschungsprojekt und den Sekundärforschenden, zu den Ausgangsdaten 
ebenso wie ggf. zur Harmonisierung und Integration unterschiedlicher Ausgangsdatensätze. 
Ziel der nachfolgenden Diskussion ist die Generierung der Forschungsdaten für die Sekun- 
däranalyse. Aspekte der Datenanalyse werden hingegen, wie eingangs bereits erwähnt, nicht 
weiter erörtert. 
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8.3.1 Informationen zum Forschungsprojekt 


Um die Aufbereitungssyntax für Dritte verständlich zu gestalten, sollte diese zunächst einige 
grundlegende Informationen zum Forschungsprojekt enthalten (Ebel 2016: 4ff). Wie in 
Schaukasten 8.2 exemplarisch dargestellt, liefern derartige Angaben einen allgemeinen Ein- 
blick und dienen dem Verständnis. Dritte, die mit der Aufbereitungssyntax weiterarbeiten 
wollen, erhalten so einen schnellen Überblick über das ursprüngliche Forschungsprojekt so- 
wie den Sinn und Zweck der Syntaxdatei. Sie werden dadurch in die Lage versetzt, die Auf- 
bereitungssyntax effektiv nutzen und die damit erzeugten Forschungsdaten reproduzieren zu 
können. 

Zu den Projektinformationen gehören zunächst der Projekttitel und die Namen der For- 
schenden ebenso wie Angaben zu deren Instituten und ggf. zu den Förderern des Forschungs- 
projekts. Dadurch werden zum einen Forschungskooperationen oder Abhängigkeiten gegen- 
über Mittelgebern für Dritte ersichtlich. Zum anderen wird aber auch dem Arbeit- bzw. den 
Mittelgebern Rechnung gezollt. Darüber hinaus sollten Informationen zum ursprünglichen 
Forschungsanliegen, die zugrunde liegende Forschungshypothese sowie die damit verknüpf- 
ten Publikationen und das Ziel der vorliegenden Aufbereitungssyntax bereitgestellt werden. 


Schaukasten 8.2: Die Aufbereitungssntax zu Reproduktionszwecken: Informationen zum Forschungsprojekt 
kkxkxkxkxkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkxk 
k* Kk 
x, Aufbereitungssyntax zu Reproduktionszwecken Er 
EHE; © Sm u vg fm es fe nu u ng a ac rg a a ac te a m pn u ya Sa See Sp a Zn fie a en be tte “x 
K* “x 
** 1. Projektinformationen: we 
ne IE RE  FE E, Kk 
x* -Projekttitel: Rechte Parteien und Wirtschaftskrise in Europa KR 
**  Forschende: Sebastian Netscher & Jessica Trixa FA 
** Kontakt: forschende@gesis.org es 
** Institut: GESIS - Leibniz-Institut für Sozialwissenschaften FR 
*%  Börderen: GESIS 33% 
ee, ‘Projekt: Zusammenhang zwischen dem Erstarken rechter Parteien ** 
AR bei den Nationalwahlen in Europa und der ax 
ee Wirtschaftskrise 2009. es 
** Hypothese: Wahler stimmen für rechte Parteien, wenn sie die px 
Kr Wirtschaftskrise als persönliche Bedrohung empfinden.** 
** Publikation: Sebastian Netscher und Jessica Trixa (2018): Das Ex 
em Erstarken rechter Parteien in Europa. Zeitschrift für** 
F Wahlverhalten [in Publikation], doi.10.XXXX/XXXXX. KR 
** Syntax: Die Syntax dient der Replikation der Forschungsdaten ** 
ss zur oben genannten Publikation. Aix 
** Autor der Syntax: Sebastian Netscher & Jessica Trixa. RX 
** Erstellungsdatum: 07.06.2017. ae 
** Dateiversion: 1.0.0. ee 
** Verfügbar unter: {noch nicht publiziert, in Vorbereitung]. ** 
** Zugang: frei [geplant]. DER 
** genutzte Software: Stata, Version 12.0. wk 
*%* Anmerkungen: zum Öffnen bzw. Speichern von Dateien müssen Befehle ** 
IR in den Zeilen 46, 93 & 281 angepasst werden. TR, 


Quelle: Eigene Darstellung 


Des Weiteren sollte die Aufbereitungssyntax auch Angaben über die vorliegende Syntaxdatei 
selbst beinhalten (Dickmann/Enke/Harms 2010: 11). Dritte sollten Kenntnis darüber haben, 
wann die Syntaxdatei erstellt wurde, um welche Version es sich handelt, wer die Autoren der 
Aufbereitungssyntax sind und wie mit diesen für eventuelle Rückfragen in Kontakt getreten 
werden kann. In diesem Zusammenhang ist auch anzugeben, wo die jeweilige Syntaxdatei 
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archiviert wurde und wie sie zugänglich ist. Schließlich sollten Spezifika der Syntaxdatei 
kurz erörtert werden. Hierzu zählen beispielsweise Programmcodes der Syntaxdatei, die je 
nach Verwendung angepasst werden miissen, z.B. Pfadangaben zum Offnen bzw. Speichern 
der Daten. 


8.3.2 Die Ausgangsdaten der Sekundäranalyse 


Neben den Angaben zum Forschungsprojekt und zur Syntaxdatei sollte die Aufbereitungs- 
syntax Informationen zu den Ausgangsdaten beinhalten (Ebel 2016). Dazu zählt zunächst 
eine adäquate Zitation jedes einzelnen Ausgangsdatensatzes. Diese muss es Dritten ermögli- 
chen, die Ausgangsdaten eindeutig identifizieren zu können, etwa mit Bezug auf die jewei- 
lige Version jedes einzelnen Datensatzes, wie in Schaukasten 8.3 dargestellt. Dritten wird 
auf diese Art und Weise ermöglicht, die Ausgangsdaten wiederfinden und so die Forschungs- 
daten nachvollziehen zu können. 


Schaukasten 8.3: Die Aufbereitungssysntax zu Reproduktionszwecken: Informationen zu den Ausgangsdaten 
kkkkxkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkxkkkkkkxkkkkkkkkkkxk 
kk kk 
EA Aufbereitungssyntax zu Reproduktionszwecken mee 
ER) a a a a pa a a ase eee a nung uni kk 
** 2. Ausgangsdaten: a= 
WR en ia re a ER: 
xx - Individualdaten: ka: 
Ex ~ CSES: Comparative Study of Electoral Systems (2014): ax 
cares CSES Module 3 Full Release. GESIS Datenarchiv, Köln. ee 
3% ZA5181 Datenfile Version 4.0.0, Ex 
KR doi:10.7804/cses.module3.2013-03-27. ** 
ER => Nachnutzungsrechte: Daten sind frei verfügbar. FR 
FA ~ BES: Whiteley, P.F. und Sanders, D. (2014): A 
AS British Election Study, 2010 (BES): Face-to-Face Survey AR 
ae [computer file]. Colchester, Essex: UK Data Archive (Archiv). ** 
Er Verfügbar unter: http://www.britishelectionstudy.com/data- a 
ER objects/cross-sectional-data/. aK 
RE Zuletzt besucht: 03.08.2017. ae 
ae => Anmerkung: ~ keine Angaben zu den Wahlen in Nordirland. 5% 
bes ~ Onlinesample, Repräsentativität kontrollieren.** 
ae => Nachnutzungsrechte: Daten sind frei verfügbar. AR 
** = Kontextdaten: Eurostat (2015): Database. Rx 
KK Verfügbar unter: http://ec.europa.eu/eurostat/data/ A 
ER database. ER 
ER Zuletzt besucht: 03.08.2017. +% 
kk => Anmerkung: Daten für ganz Großbritannien, RE 
bag inklusive Nordirland. ee 
bi => Nachnutzungsrechte: Daten sind frei verfügbar. we 


Quelle: Eigene Darstellung 


Darüber hinaus sollten Auffälligkeiten in den Ausgangsdaten im Rahmen der Aufbereitungs- 
syntax erörtert werden. Dies betrifft beispielsweise Einschränkungen in deren Zugänglich- 
keit, Besonderheiten ihrer Dokumentation oder spezifische Nachnutzungsrechte. Werden da- 
bei in der Sekundäranalyse mehrere Ausgangsdatensätze zusammengespielt, müssen die Ver- 
gleichbarkeit der Datensätze, etwa in Bezug auf die Untersuchungspopulationen, sowie deren 
Validität beschrieben werden. Zwar lassen sich im Hinblick auf die Validierung die einzelnen 
Arbeitsschritte anhand der Syntaxbefehle ablesen, dennoch sollten zur besseren Verständ- 
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lichkeit und Nachvollziehbarkeit kurze Erläuterungen das genaue Vorgehen und die Gründe 
dafür beschreiben. Dies beinhaltet neben Auffälligkeiten der Validierung auch eventuelle 
Einschränkungen in der Ergebnisinterpretation bzw. in deren Generalisierbarkeit. So weisen 
die Daten der BES in unserem Beispiel etwa keine Angaben zu Personen in Nordirland auf, 
was in der Interpretation und Generalisierung von Forschungsergebnissen entsprechend be- 
rücksichtigt werden muss. 


8.3.3 Die Aufbereitung der Ausgangsdaten für die Sekundäranalyse 


Schaukasten 8.4: Die Aufbereitungssyntax zu Reproduktionszwecken: Informationen zum Erstellen der Forschungs- 

daten 
kkkkkxkxkxkxkxkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkxk 
kk k*k 
ER Aufbereitungssyntax zu Reproduktionszwecken u 
WERE) ul in eh nts ll fu a u ar ah StS a ad a So u a a a i ee a ca k*k 
** 3. Erzeugen der Forschungsdaten: Er 
EN sate ase teen a u a ae u a gn dy eg Sat kk 
** -> Individualdatensätze: CSES & BES: YK 
KE a) Löschen nicht benötigter Informationen: FE 
rE - Untersuchungsobjekte: ~ Länder außerhalb Europa, ae 
x ~ alle Nichtwähler; ae 
A, - in der Sekundäranalyse nicht genutzte Variablen. TE 
BH b) Harmonisierung und Erstellen neuer Variablen: “x 
sè - Harmonisierung von Variablen, ee 
ER - Erstellen einer ID-Variable (<id>) rx 
Bie (Ländercodes fiir Kontextdaten). Er 
[Aufbereitung der Ausgangsdaten] 
** Harmonizing Respondent’s Marital Status (<marital>): a 
** - CSES: C2004 (D4): This variable reports the respondent's current N 
a marital or civil union status. For instance, a Sr 
ER person who is both divorced and living as RR 
Bir married would be coded 1. Fr 
** - BES: aq64 (PostQ89): Can I just check, which of these applies to you ** 
A at present? Please choose the first on the list ** 
sR that applies (CARD AY). rE 
kk k*k 
** marital CSES BES ae 
a 1. married 1. married or living 1. married Bes 
ae together as married 2. living with a partner ** 
ER 2. widowed 2. widowed 5. widowed ER 
Ex 3. divorced / 3. divorced or separated 3. separated FE 
Er separated 4. divorced ae 
RER 4. single 4. single, never married 6. single (never married) ** 
ER 5. others 5. [see variable notes] = Ben FR 
xx -7. refused 7. refused -2. refused TE 
** -8. don't know 8. don't know -1. don’t know ER 
** -9, missing 9. missing ee i TE 
** -> Kontextdaten: Eurostat: ee 
ER a) Löschen aller Länder, die nicht Teil der Individualdaten sind, a 
RR b) Erstellen einer ID-Variable (<id>) kk 
itj (Ländercodes für Kontextdaten). oe 
**x Zusammenspielen der aufbereiteten Ausgangsdaten: ER 
** a) Zusammenspielen der Individualdatensatze (CSES & BES), ER 
** b) Zusammenspielen der kumulierten Individualdaten mit den ae 
ee Kontextdaten von Eurostat anhand der erstellen ID-Variabel (<id>), xx 
** cœ) Labeln der Variablen und ihrer Ausprägungen im Forschungsdatensatz. ** 
[Zusammenspielen der aufbereiteten Ausgangsdaten; Labeln der Variablen und 
Codes] 
[Validierung und Speicherung des Forschungsdatensatzes] 
** // ENDE DER DATEI // ER 


Quelle: Eigene Darstellung 
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Beim Erstellen der Forschungsdaten lassen sich mehrere Schritte unterscheiden, wie in 
Schaukasten 8.4 illustriert. Mit Blick auf die Ubersichtlichkeit der Daten sollten zunächst 
alle Informationen gelöscht werden, die für die angestrebte Sekundäranalyse unerheblich 
sind. Hierzu zählen etwa nicht benötigte Untersuchungsobjekte und Variablen der Ausgangs- 
datensätze. Die Sekundärforschenden reduzieren damit die Komplexität der Daten, ebenso 
wie ihren Dokumentationsaufwand und erleichtern die Handhabung des Forschungsdaten- 
satzes. In Bezug auf unser Beispiel müssen zunächst etwa alle Nichtwähler aus den Daten 
entfernt werden, da sie keinen Einfluss auf das Wahlergebnis haben. Ebenso gilt es, alle Län- 
der aus den CSES-Daten zu entfernen, die außerhalb Europas und damit außerhalb des inte- 
ressierenden Untersuchungsraumes liegen. 

Daran anschließend sollten alle neu zu generierenden Variablen erstellt werden, wie etwa 
eine eindeutige ID-Variable auf Länderebene, die das Zusammenspielen von Kontext- und 
Individualdaten ermöglicht. Werden mehrere Ausgangsdaten auf einer Ebene (z.B. Individu- 
aldaten) zusammengespielt, müssen darüber hinaus die einzelnen Messkonzepte verglichen 
und die entsprechenden Variablen harmonisiert werden. Der Schaukasten liefert hierzu ein 
Beispiel anhand des Familienstands der Befragten (marital). Um sicherzustellen, dass die 
zugrunde liegenden Messinstrumente und die entsprechenden Variablen der CSES und der 
BES vergleichbar sind, werden zunächst die ursprünglich gestellten Fragen gegenüberge- 
stellt. Anschließend werden die einzelnen Antwortvorgaben und ihre Codes angeglichen 
(vgl. Winters/Netscher 2016: 9f.). 

Letztendlich müssen die einzelnen aufbereiteten Ausgangsdatensätze zusammengespielt 
werden. Dabei empfiehlt es sich, zunächst die Ausgangsdaten auf einer Ebene zusammenzu- 
spielen, z.B. die Individualdatensätze der CSES und der BES, und so einen integrierten Da- 
tensatz mit allen Untersuchungsobjekten auf einer Ebene zu erstellen. Anschließend werden 
die Daten über die Ebenen hinweg zusammengeführt, wie beispielsweise der integrierte In- 
dividualdatensatz mit den Kontextdaten von Eurostat. 

Bevor der so erstellte Forschungsdatensatz in der Sekundäranalyse genutzt werden kann, 
sollten Forschende alle Variablen sowie die darin enthaltenen Ausprägungen zur besseren 
Verständlichkeit /abeln. Zu guter Letzt muss der Datensatz erneut mit Blick auf die For- 
schungsfrage der Sekundäranalyse validiert und alle dabei auftretenden Auffälligkeiten müs- 
sen in der Aufbereitungssyntax dokumentiert werden. Der so erzeugte und dokumentierte 
Forschungsdatensatz kann dann für die eigentliche Sekundäranalyse verwendet werden. 


84 Diskussion 


Wie eingangs erörtert, ist in der Primärerhebung sozialwissenschaftlicher Forschungsdaten 
das Forschungsdatenmanagement längst akzeptiert. Dementgegen fehlen in der Sekundär- 
analyse bislang allgemein anerkannte Standards. Dabei gelten hier dieselben Gründe, die in 
der Primärerhebung als Teil guter wissenschaftlicher Praxis anerkannt sind: Forschungsda- 
tenmanagement unterstützt das Forschungsprojekt an sich. Es erleichtert den Forschenden 
den Umgang mit ihren Forschungsdaten, erzeugt Transparenz im Forschungsprojekt und un- 
terstützt die Replizierbarkeit von Forschungsergebnissen ebenso wie von Forschungsdaten. 
Schließlich unterstützt das Forschungsdatenmanagement die Nachnutzung von z.B. Konzep- 
ten zur Harmonisierung unterschiedlicher Datensätze durch andere Forschende. 

Die Nachnutzung bereits existierender Forschungsdaten im Rahmen der Sekundäranalyse 
ist an unterschiedliche Voraussetzungen gebunden. Zunächst müssen Ausgangsdaten gefun- 
den werden, die inhaltlich nachnutzbar sind, d.h. alle für die Sekundäranalyse notwendigen 
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Informationen über die entsprechende Untersuchungspopulation enthalten. Analog müssen 
sowohl die rechtlichen als auch die analytischen Voraussetzungen zur Nachnutzung gegeben 
sein. Dies betrifft sowohl die Nutzungsrechte an den Ausgangsdaten als auch deren Transpa- 
renz, Verständlichkeit und Interpretierbarkeit. Ein gezieltes Forschungsdatenmanagement 
unterstützt die Sekundärforschenden dabei bei der Suche nach inhaltlich, rechtlich und ana- 
lytisch nachnutzbaren Ausgangsdaten. Durch eine adäquate Dokumentation sichert das For- 
schungsdatenmanagement zudem eine dauerhafte Nachvollziehbarkeit des Suchprozesses, 
ebenso wie des Entscheidungsprozesses für bestimmte Ausgangsdaten. 

Um die aufgefundenen Ausgangsdaten in der Sekundäranalyse nachzunutzen, müssen 
Sekundärforschende diese validieren und entsprechend ihres Forschungsanliegens aufberei- 
ten. Dies umfasst die Kontrolle der Ausgangsdaten und deren Dokumentation. Werden für 
die Sekundäranalyse verschiedene Ausgangsdatensätze integriert, müssen Sekundärfor- 
schende diese ggf. harmonisieren und zusammenspielen. Dabei sollten sowohl die Ausgangs- 
daten, ihre Dokumentation und ihre Qualität, ebenso wie Konzepte der Datenharmonisierung 
und des Zusammenspielens unterschiedlicher Datensätze im Rahmen des Forschungsdaten- 
managements detailliert beschrieben werden. Nur so kann sichergestellt werden, dass die 
Forschungsdaten und Konzepte als solches reproduziert bzw. durch Dritte weitergenutzt wer- 
den können. 

Um die Reproduzierbarkeit bzw. Nachnutzbarkeit der verwendeten Forschungsdaten si- 
cherzustellen, ist es notwendig, die entsprechenden Konzepte zur Aufbereitung, Harmonisie- 
rung und Integration unterschiedlicher Ausgangsdatensätze Dritten verfügbar zu machen. Ein 
systematisches Forschungsdatenmanagement unterstützt die Planung und Aufbereitung der 
Ausgangsdaten, deren Harmonisierung sowie das Zusammenspielen unterschiedlicher Aus- 
gangsdatensätze. Die Dokumentation dieser Arbeitsschritte im Rahmen der Aufbereitungs- 
syntax bietet den Sekundärforschenden dabei die Möglichkeit, diese Prozesse und Maßnah- 
men einfach zu beschreiben und Dritten zugänglich zu machen. 
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9. Metadatenstandards im Kontext sozialwissenschaftlicher 
Daten 


Uwe Jensen, Wolfgang Zenk-Möltgen und Catharina Wasner 


Die transparente und nachvollziehbare Dokumentation von Forschungsdaten und ihres Ent- 
stehungskontextes stellt einen wesentlichen Beitrag zu deren Auffindbarkeit, Verständlich- 
keit, Reproduzierbarkeit und langfristigen Nutzung dar. Werden z.B. in einem Datensatz die 
Antworten auf eine Frage numerisch codiert (z.B. 1 und 2), müssen Nutzende wissen, was 
diese Zahlen bedeuten (z.B. Ja und Nein), welcher Inhalt damit verbunden ist (z.B. „Sind Sie 
wahlberechtigt?“). Datenwerte in einem Datensatz sind nicht selbsterklärend. Sie sind viel- 
mehr der Ausgangspunkt und das Objekt, das systematisch durch Metadaten beschrieben 
werden muss. Derartige Metadaten — vereinfacht verstanden als Informationen über Daten — 
erstrecken sich von Angaben zu einzelnen Fragen im Fragebogen, deren Antworten als Va- 
riablen erfasst werden, bis hin zu den Bedingungen, unter denen die Daten entstanden sind, 
z.B. durch eine Befragung im Rahmen einer Studie. 

Dieses Kapitel behandelt Metadatenstandards und Anwendungsbeispiele, die aufzeigen, 
welche Arten von Metadaten zur Dokumentation, Zitation sowie zum Auffinden von quanti- 
tativen Daten in Katalogen für Forschende in sozialwissenschaftlichen Forschungsprojekten 
von Bedeutung sind. Aus Sicht des Forschungsdatenmanagements thematisiert dieses Kapi- 
tel Metadaten konkret als 


Daten oder Informationen, die in strukturierter Form analoge oder digitale Forschungsdaten (Objekte) 
dokumentieren. Sie beschreiben, erklären, verorten oder definieren Objekte, Ressourcen und Informati- 
onsquellen für die Wissenschaft. Hierdurch helfen sie, Forschungsdaten zu managen, zu erschließen, zu 
verstehen und zu benutzen (NISO, 2004). (Jensen/Katsanidou/Zenk-Möltgen 2011: 83) 


Forschende kommen dabei sowohl als Datenproduzierende als auch als Datennutzende auf 
unterschiedliche Weise — direkt oder indirekt — mit dem Thema Metadaten in Berührung. 
Suchen Datennutzende etwa Daten für Sekundäranalysen, greifen sie wahrscheinlich auch 
auf Datenkataloge zu, um in den dort angebotenen Metadaten zu suchen. Datenproduzierende 
brauchen wiederum Metadaten, um etwa die Variablen des Datensatzes zur internen Quali- 
tätssicherung und für die Nachnutzung nach Projektende transparent und verständlich zu do- 
kumentieren. Darüber hinaus sind Metadatenstandards für Dateninfrastrukturen (Archive, 
Repositorien etc.) von großer Bedeutung, um Forschungsdaten systematisch, standardisiert, 
nachhaltig und miteinander kompatibel zu managen. Um Archivierungssysteme und Daten- 
kataloge in solchen Infrastrukturen sachgerecht zu entwickeln, nutzerfreundlich anzubieten 
und mit anderen Katalogen zu verbinden, setzen die Anbieter — je nach spezifischen Zweck — 
unterschiedliche Zusammenstellungen von Metadatenelementen eines Metadatenstandards, 
sogenannte Metadatenschemata, ein. 

Metadatenschemata durchlaufen diverse Entwicklungsphasen, aus denen sich mehr oder 
weniger verbindliche De-facto- oder Quasi-Standards entwickeln, die auf disziplinspezifi- 
schen Praxiserfahrungen und anerkannten Regeln einer wissenschaftlichen Community be- 
ruhen. Metadatenstandards können den Status einer Norm erhalten, wie z.B. die [SO-Norm 
15836 des Dublin Core Metadata Element Set (DCMES 2012). Die Dublin Core Metadata 
Initiative (DCMI) entwickelt diesen Standard seit 1994: Waren die Metadaten des Dublin 
Core Standard zunächst auf die Suche nach Literaturdokumenten und bibliotheksnahe 
Dienste ausgerichtet, dienen sie heute allgemein der Erschließung von digitalen Objekten im 
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Internet. Im Laufe der Zeit wurde das Metadatenschema von anderen Disziplinen aufgegrif- 
fen, um ihre Objekte, wie z.B. Forschungsdaten, im Web leichter auffindbar zu machen. Al- 
lerdings ist es nicht vorgesehen, mit Hilfe des Dublin Core Standard sehr kleinteilige und 
semantisch reichhaltige Aussagen über Forschungsdaten disziplinspezifisch zu dokumentie- 
ren. 

Für diese Zwecke entwickelte und etablierte sich ab Mitte der 1990er Jahre das offene 
Datenmodell der Data Documentation Initiative (DDI) als de-facto-Standard zur Dokumen- 
tation sozialwissenschaftlicher Forschungsdaten. Ausgehend von den vielfältigen Kontextin- 
formationen, Datenelementen und Datenstrukturen in den Sozialwissenschaften, die durch 
das Datenmodell definiert werden, ermöglichen entsprechend modellierte DDI-Metadaten- 
strukturen eine umfassende und differenzierte Beschreibung von Forschungsdaten und deren 
Entstehungskontext. Metadatenelemente und Metadatenstrukturen und ein zugrunde liegen- 
des Datenmodell stellen, vereinfacht gesagt, den DDI-Metadatenstandard dar, auch kurz DDI 
Standard genannt. 

Das vorliegende Kapitel behandelt sozialwissenschaftlich relevante Metadatenstandards, 
die Forschungsprojekte darin unterstützen sollen, in Kooperationen mit Dateninfrastrukturen 
und in Arbeitsteilung mit professionellen Datenmanager/innen ihre Forschungsdaten, Be- 
gleitdokumentationen und Projektinformationen 


systematisch, transparent und nachvollziehbar zu dokumentieren, 

zu registrieren und durch Identifikatoren dauerhaft zu zitieren bzw. zu identifizieren, 

in nationalen und internationalen Datenkatalogen und Bibliotheksbeständen zu finden und 
für Replikationen zu sichern bzw. langfristig für die Nachnutzung bereitzustellen. 


Die Bearbeitung des Themas erfolgt aus drei Perspektiven, denen jeweils ein Abschnitt in 
diesem Kapitel gewidmet ist. Abschnitt 9.1 dient der Einführung in das Thema Metadaten- 
standards und stellt zentrale Begriffe und Konzepte im sozialwissenschaftlichen Kontext vor. 
Anschließend wird der sozialwissenschaftlich relevante DDI Standard in seinen aktuellen 
Versionen behandelt. Abschnitt 9.2 erörtert Metadatenstandards zur Auffindbarkeit von 
elektronischen Ressourcen (Dublin Core Standard), zur Zitation von Datensätzen (DataCite 
Standard) und zur Dokumentation von sozialwissenschaftlichen Daten auf Studienebene 
(DDI Standard). Abschließend wird die Frage der Interoperabilität von Metadaten und deren 
praktischen Nutzen bei Recherchen in Datenkatalogen aus unterschiedlichen Anwendungs- 
kontexten erörtert. Diese Diskussion richtet sich primär an Mitarbeitende in Forschung, 
Lehre und Infrastrukturen, die allgemein an der Nutzung von Metadatenstandards beim Um- 
gang mit sozialwissenschaftlichen Forschungsdaten interessiert sind. 

Analog widmet sich Abschnitt 9.3 den verschiedenen Aspekten von Metadaten bei der 
Dokumentation von Forschungsdaten auf Variablenebene. Dazu wird auf Eigenschaften gän- 
giger Software eingegangen und ihre Fähigkeit zur Erfassung von Metadaten ausgelotet. Au- 
Berdem wird beschrieben, wie Metadaten zwischen umfragebasierten Systemen ausgetauscht 
werden können. Schließlich werden die Möglichkeiten des DDI-Standards zur Variablendo- 
kumentation behandelt und die relevanten Module und ihre Metadaten vorgestellt. Abschnitt 
9.4 verweist auf ausgewählte Software und Dateiformate zur Verarbeitung und Präsentation 
von Metadaten. Diese beiden letzten Abschnitte unterstützen den sozialwissenschaftlichen 
Projektalltag, indem sie über den Umgang mit Metadaten bei der Dokumentation von Vari- 
ablen und Fragen informieren. Schließlich werden Optionen behandelt, die es Projekten er- 
möglichen, Metadaten auf Studienebene und auf Variablenebene DDI kompatibel zu erfassen 
und bereitzustellen. 
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9.1 Metadaten sozialwissenschaftlicher Studien und Daten 


In der langjährigen international anerkannten Praxis sozialwissenschaftlicher Datenarchive 
werden zwei zentrale Ebenen — die Studienebene und die Variablenebene — zur Dokumenta- 
tion von Forschungsdaten durch Metadaten unterschieden (vgl. Corti et al. 2014: 38f.). 

Auf Studienebene wird mit Hilfe von standardisierten Metadaten, die in einer sogenann- 
ten Studienbeschreibung erfasst werden, systematisch der Entstehungskontext der Daten be- 
schrieben, u.a. durch Angaben zum Methodendesign der Studie, Informationen über die be- 
teiligten Forschenden und das Projekt sowie Publikationen zu Datenanalysen. In diesem 
Kontext werden auch Strukturen und Besonderheiten des Datensatzes dokumentiert, wie z.B. 
technisches Format der Datenfiles, Anzahl der Fälle und Variablen etc. Diese Metadaten 
werden für die Recherche in Datenkatalogen genutzt und deshalb häufig auch als catalog 
metadata bezeichnet (vgl. Abschnitt 9.2). 

Auf Variablenebene wird jede Variable eines Datensatzes, d.h. die Spalte in der Daten- 
matrix, und das entsprechende Item der Erhebung durch einen umfangreichen Satz von DDI- 
Metadaten dokumentiert. Diese sogenannten rich metadata werden zur Herstellung von de- 
taillierten Datendokumentationen, etwa in Form von Codebüchern oder Variablenreports, 
und zur granularen Suche in spezialisierten Recherchesystemen eingesetzt. 

Die Bedeutung eines Metadatenstandards liegt in einem einheitlichen Vokabular, das es 
erlaubt, Informationen über Forschungsdaten verständlich, strukturiert und maschinenverar- 
beitbar zu erfassen. Bei strukturierten Metadaten handelt es sich im Fall von DDI (und ande- 
ren disziplinspezifischen Standards) oft um sehr kleinteilige, granulare — semantisch reich- 
haltige — Aussagen über die Daten. So umfassen die standardisierten Metadaten einer Vari- 
ablen Bestandteile wie Variablenformat, -namen, Kodierung erhobener Werte, erklärende 
Labels etc. sowie ihre Verknüpfungen mit dem Messinstrument, z.B. einem Fragebogen, und 
deren eigene Metadaten zu Fragetexten, Intervieweranweisungen, Antwortkategorien, Filter 
usw. Davon abzugrenzen sind semistrukturierte oder unstrukturierte Metadaten, die wichtige 
Kontextinformationen zur Entstehung der Daten etwa in Form von fließtextbasierten Doku- 
menten und Materialien beschreiben (z.B. Methodenberichte). 

Metadatenstandards legen auch fest, wie Daten und ihre Metadaten (möglichst plattform- 
unabhängig) erstellt, gespeichert und in andere Systeme integriert werden können, um z.B. 
Datenrecherchen in übergreifenden webbasierten Datenkatalogen zu ermöglichen. Da derar- 
tige Systemintegrationen zumeist nicht (vollständig) möglich sind, muss sichergestellt wer- 
den, dass Kernmetadaten verschiedener Schemata miteinander kompatibel bzw. interopera- 
bel sind und (möglichst ohne Informationsverlust) aufeinander abgebildet (gemappt) werden 
können. Kernmetadaten enthalten Informationen, die in einem System vorhanden sein müs- 
sen und deshalb das Attribut verflichtend (mandatory) tragen. Dazu zählen Titel, Art und 
Produzent einer Ressource (vgl. z.B. Schaukasten 9.3). 

Zu berücksichtigen ist, dass Metadaten nicht nur analoge oder digitale Forschungsdaten 
in strukturierter Form beschreiben, sondern alle möglichen Objekte, wie z.B. Personen, Do- 
kumente, Bücher, Orte, Konzepte oder Webressourcen. Die unterschiedlichen Informationen 
zu solchen Objekten werden anhand verschiedenster Aspekte kategorisiert und charakteri- 
siert. Dabei lassen sich Metadaten allgemein anhand ihrer Zweckbestimmung in folgende 
Typen einteilen (Riley 2017; Gilliland 2016; Gartner 2008), die jedoch nicht immer trenn- 
scharf sind und zu inhaltlichen Überschneidungen führen können: 


Beschreibende Metadaten informieren über diverse Inhalte und formale Eigenschaften, die ein Ob- 
jekt charakterisieren können, wie z.B. Primärforscher eines Forschungsprojektes, Titel einer empiri- 
schen Studie oder die granularen Beschreibungen aller Bestandteile einer Variablen. Beschreibende 
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Metadaten lassen sich je nach Teilaspekt weiter unterteilen in bibliographische, methodische und 
literaturbezogene Metadaten usw. 

Administrative Metadaten geben Auskunft, wie ein Objekt verwaltet, gefunden und genutzt werden 
kann. So beschreiben technische Metadaten etwa das Dateiformat eines Datenfiles oder die zugrunde 
liegende Software, mit der Datenanalysen durchgeführt werden. Sogenannte Preservation Metadaten 
beschreiben darüber hinaus unterschiedliche Objekteigenschaften und Ereignisse bei der Sicherung 
und langfristigen Archivierung von Datenfiles und Kontextinformationen. Rechtliche Metadaten in- 
formieren schließlich über Nutzungsbedingungen oder andere Verwertungsaspekte der Ressource. 
Strukturelle Metadaten beschreiben die Beziehungen zwischen verschiedenen Objekten einer Res- 
source, z.B. wenn eine Studie aus Datensatz, Fragebogen, Datendokumentation und Methodenbericht 
besteht. 


Metadaten werden in Form von strukturierten Informationen für bestimmte Zwecke und An- 
wendungskontexte unter Berücksichtigung der disziplinspezifischen Eigenarten von For- 
schungsdaten systematisch definiert und standardisiert. Ein solcher Metadatenstandard ba- 
siert auf der inhaltlichen und technischen Spezifikation eines grundlegenden Metadatensche- 
mas, das oft im XML-Format dargestellt wird. Die Spezifikationen werden von internationa- 
len Konsortien interessierter Organisationen entwickelt und publiziert (vgl. im Linkverzeich- 
nis etwa DDI-C Standard). Die Implementierung eines grundlegenden Metadatenstandards 
in einem speziellen System wird dann oftmals durch die Publikation des (ggf. modifizierten) 
praktisch angewendeten Metadatenschemas dokumentiert, wie etwa das Paper Der GESIS 
Datenbestandskatalog — und sein Metadatenschema (Zenk-Möltgen/Habbel 2012) beispiel- 
haft zeigt. Ein solches Schema definiert im Detail für jedes seiner Metadatenelemente 
(Terms) relevante Eigenschaften einer Ressource anhand von zulässigen Angaben (Values). 
Soll etwa eine sozialwissenschaftliche Studie, in deren Kontext Forschungsdaten entstanden 
sind, in einem Datenkatalog dokumentiert werden, ist u.a. der Titel der Studie zu erfassen. 
Entsprechend definiert etwa ein DDI-Metadatenschema ein Element <title>, das folgende 
Eigenschaften aufweist: 


Elementnamen: Titel, 

Definition des Elements: Titel der Studie, 

formale Eigenschaften des Elements: z.B. ist Pflichtfeld, ist sprachabhängig, 
inhaltlich zulässiger Wert des Elements: z.B. Eurobarometer 83.4 (2015). 


Um Forschungsdaten und ihren Entstehungskontext einheitlich und eindeutig zu beschreiben, 
werden für bestimmte Metadatenelemente standardisierte Terminologien benutzt, um Infor- 
mationen mit einheitlichen Angaben (Values) aufzuführen. Typische Terminologien, die mit 
DDI-Metadaten auf Studien- oder Variablenebene dokumentiert werden können, zeigen die 
folgenden Beispiele. 

Bei der Planung und Dokumentation von Umfragen wird zur standardisierten Codierung 
von Sprachen die ISO-Norm 639 eingesetzt, während die ISO 3166 der Codierung von be- 
stehenden Staaten (ISO 3166-1), staatlichen Untereinheiten (ISO 3166-2) und ehemaligen 
Staaten (ISO 3166-3) dient. Anhand dieser Normen werden u.a. länderspezifische Fragebö- 
gen und Sprachversionen komparativer Studien einheitlich dokumentiert. Standardisierte 
Vokabulare disziplinspezifischer Thesauri und Klassifikationen dienen wiederum der fach- 
spezifischen Indexierung von Literatur, Forschungsdaten und anderen Informationstypen. 
Die Verschlagwortung sozialwissenschaftlicher Themengebiete erfolgt etwa mit Hilfe des 
Vokabulars des Thesaurus Sozialwissenschaft (TheSoz), während wirtschaftswissenschaftli- 
che Themen mit dem Standard-Thesaurus Wirtschaft (STW) beschrieben werden können. 
Die Gemeinsame Normdatei (GND) dient wiederum der einheitlichen Beschreibung von Per- 
sonen und Körperschaften. 

Auch die DDI-Initiative hat eine Reihe von Empfehlungen zu kontrollierten Vokabularen 
(DDI Controlled Vocabularies, CV) formuliert, um Metadaten wie Erhebungsverfahren, 
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Datentypen usw. einheitlich zu kodieren. Den Hintergrund der Nutzung und Verarbeitung 
kontrollierter Vokabulare des DDI Standard durch technische Systeme beschreiben beispiels- 
weise Jääskeläinen, Moschner und Wackerow (2009) in Controlled Vocabularies for DDI 3: 
Enhancing Machine-Actionability (vgl. auch DARIAH-DE). 

Zu den standardisierten Vokabularen zählen schließlich fachwissenschaftliche Klassifi- 
kationen, die in sozialwissenschaftlichen Erhebungen zur Kodierung entsprechender Variab- 
len genutzt werden. Dazu gehören etwa die International Standard Classification of Educa- 
tion (ISCED 2011) der UNESCO, mit der Bildungsabschlüsse klassifiziert werden, oder die 
Internationale Standardklassifikation von Berufsgruppen (ISCO) der International Labor Or- 
ganisation (ILO) (Jensen 2012). Die Anwendung von kontrollierten Vokabularen in europä- 
ischen Archiven und Statistischen Ämtern beschreiben Karjalainen, Kleemola und Jensen 
(2012). 


9.1.1 Der DDI-Metadatenstandard 


Die Data Documentation Initiative (DDI) entstand 1995 aus einem von dem US-amerikani- 
schen Datenarchiv ICPSR (Inter-University Consortium for Political and Social Research) 
initiierten Projekt. Ziel war es, die Möglichkeiten einer standardisierten Dokumentation so- 
zialwissenschaftlicher Studien und deren Forschungsdaten zu verbessern und die Erschlie- 
Bung dieser Forschungsressourcen den Möglichkeiten des Webs anzupassen. In die weitere 
Entwicklung flossen die praktischen Erfahrungen der international vernetzten sozialwissen- 
schaftlichen Datenarchive ein, die zu ersten gemeinsamen Empfehlungen einer standardisier- 
ten Studien- und Datendokumentation führten. 2003 wurde die DDI Alliance als Mitglieder- 
organisation gegründet und führte formalisierte Prozesse zur Weiterentwicklung der Initia- 
tive ein. In der DDI Alliance sind aktuell mehr als 40 sozialwissenschaftliche Datenarchive, 
Datenproduzierende, Erhebungsinstitute, Universitäten, kommerzielle Organisationen sowie 
international tätige Organisationen aus 18 Ländern beteiligt. Langfristiges Ziel der DDI Al- 
liance ist es, den DDI Standard zu einem offiziellen ISO-Norm weiterzuentwickeln. 

In Europa findet seit 2009 jährlich die European DDI User Conference (EDDI) statt. Sie 
ist ein Forum europäischer DDI-Nutzer, die ihre Anwendungen von DDI präsentieren und 
Fragen und Herausforderungen rund um den Standard diskutieren. Ebenso unterhält die DDI 
Alliance ein umfangreiches Verzeichnis von Software, mit der DDI-Formate erstellt und ver- 
arbeitet werden können. Teil des Publikationsangebotes sind die Best-Practice-Empfehlun- 
gen zur DDI-Implementierung. Zur Fortbildung finden regelmäßige Workshops zu DDI statt. 

Seit 1995 wurden mehrere Versionen des DDI Standard veröffentlicht. Seit 2012 stehen 
zwei unterschiedliche Versionen zur Verfügung: DDI-Codebook (DDI-C) und DDI-Life- 
cycle (DDI-L). Beide Standards sind im Extensible-Markup-Language-Format (XML) defi- 
niert und über entsprechende Repräsentationen sowohl für Menschen (z.B. bei der Recherche 
über eine Weboberfläche) als auch für Maschinen (z.B. mit Hilfe von Import- und Export- 
routinen) lesbar (vgl. Zenk-Möltgen 2012: 113). 

Die zuerst entwickelte Version DDI-C versteht sich als digitales Äquivalent des früher in 
Papierform produzierten Codebooks. Ein Fokus liegt auf der nachhaltigen Dokumentation 
von Umfragedaten im Zuge der Archivierung und Nachnutzung von Datensätzen. DDI-Life- 
cycle setzt einen weiteren Schwerpunkt, indem er die Erfassung und Nachnutzung aller Me- 
tadaten ermöglicht, die in den verschiedenen Phasen des Forschungsdatenlebenszyklus oder 
ggf. auch über verschiedene Studien, Projekte und Organisationen hinweg entstehen. Dazu 
zählen etwa Metadaten aus den Phasen der Erstellung einer Studienkonzeption, der Daten- 
sammlung, der Aufbereitung von Forschungsdaten oder der Datenanalyse sowie solche Me- 
tadaten, die auch für die Publikation in Datenkatalogen und die Langzeitarchivierung rele- 
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vant sind. Die Strukturen beider Versionen des DDI Standard werden im Folgenden kurz 
vorgestellt. 


9.1.2 Der DDI-Codebook Metadatenstandard — DDI-C 


Die Version DDI-Codebook dient vorrangig der Dokumentation einfacher Umfragedaten aus 
Querschnittsstudien (cross-section study) und ermöglicht weiterhin die Beschreibung von 
Mikrodaten, Aggregatdaten und geographischen Angaben. Der DDI-C Standard wurde 2012 
als Version DDI 2.5 veröffentlicht. Die wesentlichen Gruppen von Metadaten und ihre wich- 
tigsten Elemente sind im Schaukasten 9.1 auszugsweise vorgestellt. 


Schaukasten 9.1: DDI-Codebook — Metadatenstruktur und wesentliche Metadatenelemente (Auszug) 


1. Dokumentbeschreibung: 
Beschreibt das DDI-Dokument als Ganzes mit Angaben zu Titel, Autoren, Publikation und Zitation. 

2. Studienbeschreibung: 
Die Metadaten dokumentieren Inhalt, Typ und Autoren der Studie sowie den zeitlichen und geogra- 
phischen Rahmen der Datenerhebung. Es werden Erhebungsmethode, Grundgesamtheit sowie 
Analyseeinheit und Art der Stichprobe soweit möglich mit kontrollierten Vokabularen beschrieben. 
Weitere Metadaten erfassen Versionierung, bibliographische Zitation und den dauerhaften Identifi- 
kator des Datensatzes. Datenzugang und Nutzungsbedingungen werden ebenfalls dokumentiert. 

3. Variablenbeschreibung: 
In diesem Abschnitt werden Variablennamen, Typ und Labels der Variable erfasst. Neben dem Code 
und den Haufigkeiten der Variable im Datensatz können Hinweise zur Kodierung oder Berechnung 
von Werten mit Hilfe von Anmerkungen beschrieben werden. Weitere Metadaten beinhalten Frage- 
texte und Antwortkategorien, Intervieweranweisungen sowie Filterinformationen aus dem Fragebo- 
gen. 

4. Datensatzbeschreibung: 
Hier werden die Anzahl der Variablen und Erhebungsfälle und Namen, Formate und Versionen der 
Datendatei(en) dokumentiert. 

5. Anderes Material: 
Dieser Abschnitt enthält Informationen und Links zu digitalisierten Kontextdokumenten wie z.B. Fra- 
gebögen, Methodenberichte usw. sowie Verweise auf Publikationen, in denen der Datensatz der 
Studie genutzt wurde. 


Quelle: Eigene Darstellung in Anlehnung an Jensen (2012: 49) 


Diese Metadaten beschreiben die Kontextinformationen zur Studie, die Dokumentation so- 
wie den Datensatz und seine Variablen. Die übergreifenden Informationen zur Studie werden 
als sogenannte Studienbeschreibung über Datenkataloge für differenzierte Recherchen zu 
Themen einer Studie und zur Bereitstellung von dazugehörigen Daten und Dokumentation 
angeboten (vgl. Abschnitt 9.2.3). DDI-C erleichtert die Migration der Codebuch-Metadaten 
in den DDI-Lifecycle Standard. So können etwa DDI-C-Metadaten einer Querschnittstudie 
in DDI-L überführt werden, sobald zu einer Querschnittsstudie später weitere Erhebungen 
hinzukommen und die maschinelle Wiederbenutzung vorhandener Metadaten in DDI-L von 
Interesse ist. 


9.1.3 Der DDI-Lifecycle Metadatenstandard — DDI-L 


DDI-L basiert auf dem von der DDI Alliance entwickelten Data-Lifecycle (vgl. Kapitel 2.2), 
der in acht Phasen aufgeteilt ist. Diese müssen jedoch nicht notwendigerweise in chronolo- 
gischer Reihenfolge durchlaufen werden. Entsprechend wurden in DDI Module entwickelt, 
die den Data-Lifecycle-Phasen logisch zugeordnet sind und zusammengehörige Metadaten- 
elemente der jeweilig erforderlichen Dokumentation einer Phase zusammenfassen. 
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Abbildung 9.1: Mögliche Nutzung von DDI-Modulen in den Phasen des Lebenszyklus von Forschungsdaten 
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Quelle: Eigene Darstellung basierend auf dem Lifecycle-Modell der DDI Alliance (DDI (0.J.): Lifecycle-Modell). 


Abbildung 9.1 zeigt die zehn wichtigsten Module und ihre logische Anbindung an die (in der 
Grafik verkürzt dargestellten) Phasen des DDI-Lifecycle-Modells, die im Folgenden be- 
leuchtet werden.! Damit ermöglichen es die Module, einzelne Phasen im Lebenszyklus von 
Forschungsdaten unabhängig voneinander zu dokumentieren und die entstandenen Metada- 
ten in anderen Phasen wiederzuverwenden. Die Module können auch — unabhängig von der 
Zuordnung zu einer Phase — danach unterschieden werden, 


+ ob sie der Erzeugung von Metadaten dienen und diese beinhalten (Content Modules, die als runde 
Form in der Abbildung dargestellt werden) oder 

+ ob sie den Inhalt der Content Modules wiederverwenden und diesen für bestimmte Zwecke struktu- 
rieren (Packaging Modules); in Abb. 9.1 als eckige Form dargestellt. 


Einige der Content Modules beinhalten weiterhin eine Reihe von mit Sternchen gekennzeich- 
neten DDI Schemes. Das sind Listen von wiederverwendbaren DDI-Metadatenelementen ei- 
nes bestimmten Typs, wie beispielsweise Fragen (Question Scheme im Modul Data Collec- 
tion) oder Variablen (Variable Scheme im Modul Logical Product). 

Die wesentlichen DDI-L-Module sowie ihre mégliche (wenn auch nicht zwingende) Zu- 
ordnung zu den Phasen im Data-Lifecycle werden im Folgenden kurz beschrieben. 


1. Phase: Studienplanung und das Modul Conceptual Components 


1 Alle Namen von Modulen und Teilelementen werden zur besseren Lesbarkeit im Folgenden — im Gegensatz 
zu DDI Konventionen - nicht zusammengeschrieben. 
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Dieses Modul dient der Dokumentation von wissenschaftlichen Konzepten (z.B. Arbeitslosigkeit), 
die von Datenelementen (Variablen) gemessen werden, sowie Grundgesamtheiten (alle Beschäftig- 
ten ab 18 Jahre) und geographischen Strukturen (Deutschland) oder Orten, die den dokumentierten 
Daten zugrunde liegen. 

Phase: Datenerhebung und das Modul Data Collection 

Das Modul dient der Beschreibung der Erhebungsmethode, Erhebungszeiträume und zur Dokumen- 
tation besonderer Ereignisse im Rahmen der Datenerhebung. Außerdem werden hier u.a. mehrspra- 
chige Fragetexte und Antwortdomänen (Text, numerisch, Codeschema etc.) sowie Ablauf- und Kon- 
trollstrukturen, Intervieweranweisungen und Codierungsanweisungen des Messinstruments doku- 
mentiert. 

Phase: Datenaufbereitung und Datenanalyse 

Ggf. ist diese Phase in die Phase Datenarchivierung eingebunden, wenn die Daten in ein Datenarchiv 
aufgenommen werden. Dabei spielen folgende vier Module eine besondere Rolle (siehe auch Ab- 
schnitt 9.3.4): 


Im Modul Logical Product werden die Metadaten zur Struktur der erhobenen Daten abgelegt. 
Hier sind die Listen der Antwortkategorien und der verwendeten numerischen Codes und die 
daraus entstehenden Variablen des Datensatzes dokumentiert. Aggregierte Daten von Variablen 
mit mehreren (N) Dimensionen — sogenannte Cubes — oder generell n-dimensionale Datenstruk- 
turen werden mit Hilfe sogenannter NCubes erfasst. Variablen und NCubes können in Gruppen 
zusammengefasst und ihre Beziehungen beschrieben werden. 

Das Modul Physical Data Product benennt die physikalischen Eigenschaften der Datenstruktu- 
ren, etwa ob die Daten in einem festen, variablen oder Trennzeichen-Format vorliegen. Die Ver- 
bindung zu den Variablen aus dem Logical Product wird funktional über sogenannte Data Re- 
lationships gesteuert. 

Das Modul Physical Instance dokumentiert die physikalische Datendatei als Eins-zu-Eins-Rela- 
tion zu einem konkreten Datenfile (z.B. im SPSS- oder STATA-Format), die die Daten enthält. 
Das Modul erlaubt auch die Speicherung von Tabellen mit statistischen Auswertungen zu den 
Variablen. 

Das spezielle Modul Local Holding Package beschreibt im Kontext der Phase Datenarchivierung 
Metadaten zum Modul Study Unit Package (s.u.), die von einem Archiv für die Datenbereitstel- 
lung und Datensuche (zusätzlich) erstellt werden. 


4. Phasen: Datenbereitstellung und Datensuche (hier gemeinsam ausgewiesen) 


Spätestens zu diesem Zeitpunkt (oft in Verbindung mit einer vorausgehenden Datenarchivierung) 
kommen die Metadaten folgender Module zum Einsatz: 


Das Modul Study Unit Package beschreibt grundlegende Kontextinformationen der erhobenen 
Daten. Dazu gehören Metadaten, die der Identifizierung dienen, wie Studiennummer, Persistent 
Identifier und Zitationsinformationen. Weiterhin werden die räumliche und zeitliche Einordnung 
der erfassten Daten sowie die abgedeckten Themen dokumentiert. Außerdem erfasst das Modul 
grundlegende Konzepte der Datenauswahl und -erhebung sowie die abzubildende Grundgesamt- 
heit. Informationen über den Forschungszweck der Studie sowie Angaben zu Forschungsanträ- 
gen und deren Finanzierung werden ebenfalls hier dokumentiert. 

Das Modul Group Package erlaubt in diesem Kontext die Vererbung von Basisinformationen, 
etwa über ein Umfrageprogramm. Werden z.B. im Rahmen dieses Programms wiederholt Daten 
zu getrennten Zeitpunkten erhoben und dokumentiert, können die grundlegenden Informationen 
in der Dokumentation der Folgeerhebung wiederverwendet und, wenn notwendig, angepasst 
werden. 

Eine wichtige Rolle bei der Wiederbenutzung von Metadaten spielt das Resource Package. Die- 
ses Modul ermöglicht die Dokumentation von Elementen, wie z.B. Fragen, Antwortskalen oder 
Variablendefinitionen, die in standardisierter Form in unterschiedlichsten Studien oder Umfra- 
geprogrammen wiederverwendbar sind. 


Phase: Nachnutzung 

Das Module Comparative ermöglicht im Rahmen der Nachnutzung den paarweisen Vergleich von 
Elementen wie z.B. Fragen, Variablen, Kategorien und Code-Schemata aus vergleichenden Studien. 
Gemeinsamkeiten und Unterschiede können anhand der Werte Identical, High, Medium, Low, None 
codiert werden. 
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Die Metadatenelemente aus diesen Modulen können vielfältig über technische kontrollierte 
Referenzen miteinander vernetzt werden und ermöglichen damit auch eine maximale Wie- 
derverwendung der Dokumentationsteile in den verschiedenen Stadien des Forschungsdaten- 
Lebenszyklus (Jensen 2012: 48f; Zenk-Möltgen 2012: 114). 


9.2 Metadaten zum Beschreiben und Finden von Studien und 
Datensätzen 


Metadaten auf Studienebene bieten nach Projektende einen Überblick über den Forschungs- 
kontext, die Konzeption der Studie und die Methode der Datenerhebung sowie Dokumente 
zur Datenaufbereitung und Informationen über publizierte Ergebnisse. Sie sind somit auch 
ein Schlüssel für Forschende, um Daten und notwendige Dokumentationen zu finden und 
neue wissenschaftliche Fragestellungen mit bereits vorhandenen Daten zu bearbeiten, ohne 
Daten selbst erheben zu müssen. Diese Nachnutzung von Daten (Data-Sharing) im Rahmen 
von Sekundäranalysen setzt aber nicht nur voraus, dass die Daten sowohl auffindbar und 
verständlich dokumentiert sind, sondern erfordert auch deren Zugänglichkeit und technische 
Nutzbarkeit (s. dazu ausführlich Kapitel 8.1). 

Angesichts von national wie international verteilten, heterogenen Datenbeständen, die 
beispielsweise von Datenarchiven, Repositorien oder Forschungsdatenzentren unterhalten 
werden, stellt sich auch für Datenproduzierende und Datennutzende in Forschungsprojekten 
die Frage, wie Studien und Daten ggf. interdisziplinär beschrieben und gefunden werden 
können. So konstatiert etwa Horstmann (2007: 231): 


Wissenschaftler sind es aber gewohnt, bei der Informationssuche auf nationale oder internationale Da- 
tenbestände zuzugreifen und möchten nicht einen lokalen Katalog nach dem nächsten „durchblättern“. 


Welche Metadatenstandards bei der Entwicklung vernetzter Infrastrukturen zum Nachweis 
von Forschungsdaten eine wichtige Rolle übernehmen, wird in diesem Beitrag anhand der 
Standards Dublin Core, DataCite und DDI beschrieben. Im Anschluss wird das Thema Zn- 
teroperable Metadaten an den drei Beispielen behandelt, um zu zeigen, wie ein Set von Kern- 
metadaten die Erschließung von Forschungsdaten aus unterschiedlichsten Disziplinen er- 
möglicht. 


9.2.1 Metadaten zum Beschreiben von Ressourcen — Beispiel Dublin Core 


Dublin Core (DC) ist ein weitverbreiteter Standard zur Beschreibung und Erschließung digi- 
taler Objekte im Internet, der von der Dublin Core Metadata Initiative (DCMI) entwickelt 
und unterhalten wird. Seit dem Gründungsworkshop 1995 hat sich der ursprüngliche Zweck 
der Metadaten — „improving the discovery of electronic resources on a rapidly growing 
World-Wide Web “ - in Richtung der „resource description “ (DCMI 2011: 0.8.) sukzessive 
erweitert. So sollen DC-Metadaten nicht nur elektronisch verfügbare Objekte, sondern prin- 
zipiell jedes identifizierbare Objekt beschreiben können. Dies können physikalische Dinge, 
Konzepte, Software aber auch Datensätze und (Daten-)Kollektionen sein, wie sie im (kon- 
trollierten) DCMI Type Vocabulary (2012) beschrieben werden. Vor diesem Hintergrund 
wird verständlich, dass die DC-Metadaten zur Beschreibung von und Suche nach Objekten 
nicht nur für Bibliotheken und Museen, sondern im Prinzip für alle wissenschaftlichen Dis- 
ziplinen von Interesse sind. So können auch Objekte anderer Domänen auf einfache Weise 


160 Uwe Jensen, Wolfgang Zenk-Möltgen und Catharina Wasner 


mit einem Satz von 15 Kernmetadaten beschrieben und online erschlossen werden. Sie wer- 
den Dublin Core Metadata Element Set (DCMES 2012) oder kurz DC oder DC Simple ge- 
nannt und sind als ISO Standard 15836 anerkannt. Schaukasten 9.2 beschreibt (auszugs- 
weise) diese Kernelemente und ordnet sie Metadatentypen (vgl. Abschnitt 9.1) zu, um ihren 
jeweiligen Zweck zu verdeutlichen. 


Schaukasten 9.2: Kernelemente des Dublin-Core-Metadatenschemas (Auszug) 
Deskriptive Metadaten 


Title: formeller Name oder Titel des Objektes 

Subject: thematische Einordnung des Objektes, z.B. durch ein Klassifikationssystem 
Description: Abstract zur inhaltlichen Beschreibung des Objektes 

Coverage: raumliche oder zeitliche Zuordnung des Objektes 

Language: Sprache des Inhalts des Objektes 


Bibliographische Metadaten 


« Creator — Contributor: Produzent des bzw. Mitwirkende an der Erzeugung des Objekts 
e Publisher: Instanz, die das Objekt veröffentlicht 


Administrative Metadaten 


« — Rights: rechtliche Eigenschaften des Objektes, z.B. Lizenzen, Zugangsrechte 
« Date: relevantes Datum im Lebenszyklus, z.B. wann ein Datensatz geändert wurde 


Strukturelle Metadaten 


+ Identifier: eindeutige Identifizierung des Objekts, z.B. durch ISBN, URL, DOI 
« Source: Verweis auf ein Ursprungsobjekt, auf dem das vorliegende Objekt aufbaut 
e Relation: Verweis auf ein Objekt, das mit dem beschriebenen Objekt auch in Verbindung steht 


Technische Metadaten 


« Format: Angabe, wie das Objekt dargestellt ist oder weiterverarbeitet werden kann 

e Type: Art und Gattung des Objektes, das durch ein kontrolliertes Vokabular definiert werden kann, 
wie z.B. Kollektion, Datensatz, Text, Programm, Dienste, Ereignis, physikalisches Objekt, Bildmate- 
rial, Tonmaterial 


Quelle: Eigene Darstellung mit Bezug auf DCMES - Dublin Core Metadata Element Set (2012) 


Alle Felder sind optional, wiederholbar und können in beliebiger Reihenfolge erscheinen. 
Sie ermöglichen beispielsweise die Zitation eines Objekts nach unterschiedlichen Zitations- 
standards. Um die Zitation und Auffindbarkeit sozialwissenschaftlicher Objekte wie Datens- 
ätze und Begleitmaterialien in differenzierter Weise zu ermöglichen, sind semantisch inhalts- 
reichere, disziplinspezifische Metadaten erforderlich. Solche Metadaten behandelt der 
nächste Abschnitt. 


9.2.2 Metadaten zur Zitation von Forschungsdaten — Beispiel DataCite 


DataCite ist ein 2009 gegründetes, stetig wachsendes, internationales Konsortium mit Mit- 
gliedern in Europa, Nordamerika, Asien und Australien. Das Konsortium wurde gegründet, 
um einheitliche Standards zur Akzeptanz von Forschungsdaten als legitime, eigenständige 
und zitierfähige wissenschaftliche Leistung weltweit zu etablieren und die Archivierung von 
sowie den Zugang zu Daten für die Nachnutzung zu fördern. 

Das Kernkonzept beruht auf der Nutzung eines Persistent Identifiers (PID). Im DataCite- 
Kontext ist ein PID eine Zuordnung zwischen einer Zeichenfolge und einem Objekt. Objekte 
können z.B. ein Datensatz, ein Text, eine Audio- bzw. Videodatei, Software, Workflows, 
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Ereignisse etc. sein. Um PIDs zu erzeugen, nutzt DataCite das System von DOI (Digital Ob- 
ject Identifier), wie im Kapitel 10 näher vorgestellt. 
Das aktuelle DataCite-Metadatenschema 4.1 (DataCite 2017: 3f.) 


is a list of core metadata properties chosen for an accurate and consistent identification of a resource for 
citation and retrieval purposes, along with recommended use instructions. [...] The resource that is being 
identified can be of any kind, but it is typically a dataset. We use the term ‘dataset’ in its broadest sense. 
We mean it to include not only numerical data, but any other research data outputs. 


Es umfasst insgesamt neunzehn Hauptelemente (Properties), deren Eigenschaften durch wei- 
tere Unterelemente (Subproperties) spezifiziert werden können. 

In Deutschland vergibt die Registrierungsagentur dajra, die seit 2010 DataCite-Mitglied 
ist, DOI-Namen für Forschungsdaten und Materialien aus den Sozial- und Wirtschaftswis- 
senschaften. Der dalra Service hat ein spezielles DDI kompatibles Metdatenschema entwi- 
ckelt (Koch et al. 2017), um den besonderen Anforderungen an die Beschreibung und diffe- 
renzierte Erschließung sozial- und wirtschaftswissenschaftlicher Daten gerecht zu werden. 
Das Schema erweitert das Metadatenschema von DataCite um disziplinspezifische Elemente 
und besteht aus 32 Hauptelementen (und zusätzlichen Subelementen). Zusammen mit drei- 
zehn kontrollierten Vokabularen können sowohl Forschungsdaten als auch Materialien, die 
im Forschungsprozess entstanden sind, differenziert beschrieben, zitiert und erschlossen wer- 
den (s. Schaukasten 9.3). 


Schaukasten 9.3: Notwendige Metadaten zur Registrierung bei dajra 


Art der Ressource — Beschreibung durch kontrolliertes Vokabular und freien Text 

Titel der Ressource 

Namen der Primärforscher und/oder Namen der Institution, die die Daten erstellt haben 
Publikationsagent — Einrichtung, die die Ressource veröffentlicht 

DOI-Name, der der Ressource zugeordnet ist sowie 

die URL, die auf die Ressource verweist 

Version der publizierten Ressource 

Publikationsdatum der Ressource 

Bedingungen, unter denen die Ressource zugänglich ist 


Quelle: Eigene Darstellung mit Bezug auf Koch et al. (2017) 


Das erste Element in Schaukasten 9.3 ist von Bedeutung, um die Eigenschaft einer Ressource 
zu spezifizieren. So kann ein allgemeiner Typ Datensatz als spezifischer Typ Zensusdaten 
charakterisiert werden. Darüber hinaus können vielfältige Metadaten genutzt werden, um u.a. 
einen Datensatz inhaltlich und bibliographisch näher zu beschreiben und Forschende etwa 
über Thema, Sample und Erhebungsmethoden sowie die zeitliche und geographische Abde- 
ckung der Daten zu informieren. Weiterhin können zum Datensatz gehörende Objekte, z.B. 
Fragebogen, Methodenbericht oder Syntaxdateien registriert werden. Durch diese disziplin- 
spezifischen Metadaten ist es Forschenden möglich, in Katalogen sehr zielgerichtet (fach- 
spezifische) Daten und Dokumentationen zu interessierenden Fragestellungen zu finden bzw. 
eigene archivierte Projektdaten zitierfähig zu publizieren. 


9.2.3 Metadaten zum Finden sozialwissenschaftlicher Daten — Beispiel DDI 


Mit der Entwicklung des DDI Standard begannen die sozialwissenschaftlichen Datenarchive 
weltweit, die papierbasierten Kataloge ihrer Datenbestände auf elektronische Datenkataloge 
mit spezialisierten Funktionen zur Suche und Bereitstellung umzustellen. 

Zur Beschreibung und Erschließung von wissenschaftlichen Umfragen und zur Archivie- 
rung entsprechender Daten wurde das elektronische Format der Studienbeschreibung für 
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sozialwissenschaftlich orientierte Datenkataloge entwickelt (Bauske 2000). Die Studienbe- 
schreibung dokumentiert anhand der strukturierten, und disziplinspezifischen DDI-Metada- 
tenstandards u.a. Herkunft, Inhalte, Zugänglichkeit und Nutzungsbedingungen der Daten und 
Dokumentationen. Bibliografische Informationen beschreiben die Studie, die Forschenden 
sowie deren Publikationen. Methodenbezogene Metadaten umfassen u.a. Auswahlverfahren, 
Erhebungsmethoden sowie Ort und Zeitraum der Erhebung, wie oben bereits erörtert. 


Schaukasten 9.4: DDI-Metadatenelemente der Studienbeschreibung 
Bibliographische Angaben 


Studientitel und Studiennummer 

Namen und Institutionen der Primärforscher/innen 

Institution, die die Daten erhoben hat 

Angaben zur Zitation des Datensatzes 

Version des Datensatzes (Nummer, Namen, Datum) und Errata (Korrekturen in den Daten) 
Persistent Identifier (PID) des Datensatzes 


Inhalt 
inhaltliche Beschreibung der Studie — Abstract 
Themenklassifikation 

Methodologie 


zeitliche und geographische Angaben zur Erhebung 
Grundgesamtheit und Auswahlverfahren 
Typ des Erhebungsverfahrens 


Daten und Dokumente 


Format des Datensatzes und Art des Analysesystems 

Anzahl der Einheiten (Falle) und Variablen 

Datenzugang und Nutzungsbedingungen 

Datensatz (zum Download) 

Codebücher, Fragebogen, Methodenberichte o.ä. zum Download 


Veröffentlichungen 


Literatur zur Studie, z.B. Forschungsbericht; Analyseergebnisse 


Quelle: Eigene Darstellung in Anlehnung an Jensen (2012: 60f.) 


Allgemein betrachtet informieren Metadaten auf Studienebene über den Kontext der For- 
schungsdaten. In Schaukasten 9.4 sind die wesentlichen Gruppen von Metadatenelementen 
einer DDI-basierten Studienbeschreibung zusammengefasst. Dabei handelt es sich haupt- 
sächlich um sehr detaillierte deskriptive Metadaten, die durch administrative, strukturelle und 
technische Metadaten ergänzt werden. Aus Darstellungsgründen wird im Schaukasten auf 
die gesonderte Kennzeichnung durch diese Typen verzichtet. 

Die ausführliche Dokumentation von Studien ist eine Voraussetzung, damit Forschende 
Daten sowohl finden als auch korrekt interpretieren und nachnutzen können. Für Projekte, 
die ihre Forschungsdaten und Materialien in einem Datenarchiv sichern und zur Nachnut- 
zung bereitstellen wollen, werden entsprechende Metadaten der Studienebene dort aufberei- 
tet (oftmals auch in englischer Sprache) und in den lokalen Datenkatalog integriert. 

Das folgende Beispiel in Abbildung 9.2 stammt aus dem GESIS-Datenbestandkatalog 
und zeigt auszugsweise Metadaten der archivierten Umfrage ALLBUS 2016 (Studiennum- 
mer ZA5250), die zur Nachnutzung bereitsteht. Der Reiter Bibliographische Angaben prä- 
sentiert Metadaten wie Zitation und DOI der Daten, die Studiennummer und Titel der Studie. 
Analog zeigen die weiteren Reiter Metadaten zum Inhalt der Studie, zur Methodologie und 
zu den downloadbaren Daten und Dokumenten (Codebuch, Fragebogen usw.). Mit der 


9. Metadatenstandards im Kontext sozialwissenschaftlicher Daten 163 


Archivierung der Forschungsdaten bei GESIS werden diese bei dalra registriert und erhalten 
mit ihrer Veröffentlichung einen DOI-Namen. Informationen zu institutionellen Möglichkei- 
ten der Sicherung, Archivierung und Nachnutzung von Forschungsdaten behandelt Kapitel 
7. 


Abbildung 9.2: Metadaten der Studie ALLBUS 2016 (ZA5250) im GESIS-Datenbestandskatalog (Ausschnitt) 


ZA5250: Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2016 


Bibliographische Angaben Inhalt Methodologie Daten & Dokumente Errata & Versionen Veröffentlichungen 


Gruppen 

Zitation i GESIS - Leibniz-Institut für Sozialwissenschaften (2017): Allgemeine Bevölkerungsumfrage der 

© Sozialwissenschaften ALLBUS 2016. GESIS Datenarchiv, Köln. ZA5250 Datenfile Version 2.1.0, 
doi:10.4232/1.12796 

Studiennummer ZA5250 ` 

Titel Allgemeine Bevölkerungsumfrage der Sozialwissenschaften ALLBUS 2016 


Quelle: GESIS — Leibniz-Institut für Sozialwissenschaften (2018) 


Gleichzeitig werden die Inhalte solcher ‚lokalen‘ Datenkataloge immer stärker auch grenz- 
überschreitend mit internationalen Dateninfrastrukturen vernetzt und von unterschiedlichsten 
Suchmaschinen indexiert. So ist etwa der GESIS-Datenbestandskatalog gemeinsam mit an- 
deren europäischen Archivkatalogen Teil des Datenkatalogs von CESSDA (Consortium of 
European Social Science Data Archives). Die entsprechenden Metadaten werden darüber 
hinaus in international vernetzten Online-Ressourcen, wie etwa dalra oder auf europäischer 
Ebene im B2Find Katalog (EUDAT) sowie dem Nachweissystem von OpenAire, verwendet. 
Diese Vernetzung ‚lokaler‘ Datenkataloge erweitert die Möglichkeiten eines integrierten 
Nachweises von Forschungsdaten — aber auch von Publikationen und anderen datenbezoge- 
nen Forschungsinformationen — aus unterschiedlichen Wissenschaftsdisziplinen. 

Dazu ist es notwendig, dass die Metadaten — zumindest für bibliographische Kernele- 
mente wie z.B. den Titel — in den Metadatenschemata der verschiedenen Systeme aufeinan- 
der abbildbar sind. D.h., die Metadaten müssen interoperabel sein, was im folgenden Ab- 
schnitt thematisiert wird. 


9.2.4 Interoperable Metadaten zum Nachweis von Studien und Daten 


Die letzten drei Abschnitte haben beispielhaft beschrieben, welche Metadatenstandards für 
spezifische Zwecke eingesetzt werden können, um Ressourcen auch aus unterschiedlichsten 
Disziplinen zu finden (z.B. mittels DCMI) und sie zitierfähig im Internet anzubieten (bei- 
spielsweise über DataCite, dalra). Anhand der Metadatenstandards aus dem Bereich der So- 
zialwissenschaften wurde gezeigt, wie Metadaten es erlauben, Studien und Datensätze dieser 
Domäne sowohl in sozialwissenschaftlichen als auch in transdisziplinären Datennachweis- 
systemen zu finden (da|ra, DDI, B2Find, OpenAire). Die ausgewählten Standards zeigen aber 
auch, dass sie Forschungsdaten mit ihren Metadatenelementen unterschiedlich tief beschrei- 
ben und erschließen können. Das bedeutet einerseits, dass disziplinübergreifende Standards 
erforderlich sind, um Datenressourcen unterschiedlichster Herkunft z.B. in interdisziplinären 
Informationsplattformen zu finden. Anderseits wird die Notwendigkeit kleinteiliger, diszip- 
linspezifische Metadaten deutlich, um mit ihrer Hilfe z.B. die relevanten sozialwissenschaft- 
lichen Daten für eine spezifische, sekundäranalytische Fragestellung aus der Masse von Da- 
tenangeboten herauszufiltern (Jensen/Katsanidou/Zenk-Möltgen 2011). 
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Die Verwendung solcher Metadaten erfordert es auch, dass sie sowohl von den Nutzen- 
den eines Datenkatalogs als auch von diversen technischen Systemen verstanden, genutzt 
und verarbeitet werden können. D.h., Metadatenstandards sollten so entwickelt werden, dass 
sie von Recherchesystemen verarbeitet und erschlossen und auch zwischen solchen Syste- 
men ausgetauscht werden können. Dabei ist sicherzustellen, dass eine Ressource, wie z.B. 
ein sozialwissenschaftlicher Datensatz, in unterschiedlichen Systemen mit möglicherweise 
unterschiedlichen Metadatenstandards bzw. Elementen beschrieben und verstanden werden 
kann. 

Damit verschiedene Metadatenstandards untereinander kompatibel sind, müssen grund- 
legende Metadatenelemente, wie z.B. Name und Quelle eines Objektes interoperabel sein, 
d.h. zwischen verschiedenen Systemen — möglichst ohne Informationsverlust — ausgetauscht 
werden können. Im Kontext von Metadaten wird dabei unterschieden zwischen (Rühle o.J.: 
5): 


struktureller Interoperabilität — die Standards beruhen auf einem gemeinsamen Datenmodell, 
syntaktischer Interoperabilität — die Metadaten werden in einem Format, wie z.B. XML, kodiert, 
semantischer Interoperabilität — die verwendeten Metadatenelemente haben die gleiche Bedeutung. 


Angesichts der Vielfalt von Metadatenstandards, die die besonderen inhaltlichen Anforde- 
rungen an Metadaten zur Dokumentationen von Daten in den unterschiedlichsten Disziplinen 
wiederspiegeln, ist es nicht möglich, diese Arten von Interoperabilität vollständig zu reali- 
sieren. Vielmehr bestimmt der Zweck eines Datenkataloges, welche und wie viele Metadaten 
interoperabel sein müssen. So ist es zum Nachweis von lokalen Datenbeständen in übergrei- 
fenden Katalogen ausreichend, wenn eine geringe Zahl interoperabler Kernmetadaten (vgl. 
Schaukasten 9.2 zum Dublin Core Standard) genutzt wird. 

Ein gängiges Mittel, um Metadaten eines Ausgangs- bzw. Quellsystems in einem neuen 
Zielsystem abzubilden, ist das sogenannte Mapping. Dazu werden relevante Metadatenele- 
mente des Quellsystems auf entsprechende Elemente des Zielsystems abgebildet. Um dabei 
sinnvolle Ergebnisse zu erzielen, ist es erstens notwendig, dass das Mapping semantisch kor- 
rekt ist. Dazu werden sogenannte Mappingtabellen bei der Spezifikation eines Metadaten- 
schemas definiert. Zweitens muss die technische Abbildung eines Elements aus dem Quell- 
system auf ein anderes Element des Zielsystems syntaktisch möglich sein (z.B. durch Nut- 
zung des XML-Formats) und regelkonform erfolgen. 

Üblicherweise werden Mappings mit Elementen anderer Metadatenstandards in der je- 
weiligen Spezifikation des Standards des Quellsystems systematisch dokumentiert, wie z.B. 
im dalra-Metadatenschema Version 4 (Koch et al. 2017: 69ff.). Das Mapping von Metadaten 
eines Metadatenschemas auf verschiedene Softwaresysteme beschreiben Akdeniz und Zenk- 
Möltgen (2017: 55ff.). Wie das Mapping bzw. der Austausch von Metadaten aus den Stan- 
dards von Dublin Core, DataCite und DDI für unterschiedliche Anwendungszecke erfolgt, 
sei zum Abschluss kurz erwähnt. Dabei spielen die 15 Kernelemente des Dublin Core Stan- 
dard eine zentrale Rolle (vgl. Schaukasten 9.2). 

Sollen beispielsweise DDI-Metadaten einer Studienbeschreibung eines lokalen Datenka- 
talogs als Quellsystem in ein transdisziplinäres Datenportal wie der B2Find-Katalog von EU- 
DAT als Zielsystem aufgenommen werden, werden die Metadaten automatisiert abgefragt, 
sodass Forschungsdaten aus verteilten Quellsystemen im Portal gefunden werden können. 
Bei der Abfrage von Metadaten eines Datenservices, auch Harvesting genannt, wird bevor- 
zugt die Schnittstelle OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) 
eingesetzt. Dieses Protokoll setzt die 15 Kernelemente von Dublin Core als verpflichtende 
Metadatenspezifikation (vgl. Spezifikation OAI-PMH Dublin Core; kurz oai_dc) ein. Diese 
Kernelemente stellen den kleinsten gemeinsamen Nenner an Informationen über ein Objekt 
dar, die zwischen unterschiedlichen Systemen mittels OAI-PMH ausgetauscht werden 
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miissen. Das Protokoll erlaubt jedoch auch die Verwendung anderer Metadatenstandards. So 
verwendet etwa dalra für seine Metadaten des OAI-PMH Providers zusätzlich zwei dalra- 
spezifische Formate, basierend auf dem DDI-Lifecycle-Format und dem DataCite-Format 
(dalra OAI-PMH). 


9.3 Metadaten zur Dokumentation von Variablen und Fragen 


Datenstrukturen in den quantitativen Sozialwissenschaften bestehen in der Regel aus recht- 
eckigen Tabellen, in denen eine Liste von Subjekten in den Zeilen und die Merkmale in den 
Spalten, die dann Variablen genannt werden, eingetragen sind. So sind z.B. Umfragedaten 
oft mit einer Zeile pro befragte Person angegeben und in den Spalten die Antworten auf die 
Fragen des Fragebogens. Ein anderes Beispiel sind Aggregatdaten, etwa wenn Länder in den 
Zeilen angegeben werden, und Werte für das Bruttosozialprodukt oder die Arbeitslosenquote 
in der Spalte. 

Die Nutzung derartiger Datenstrukturen, etwa in Sekundäranalysen, setzen die genaue 
Kenntnis einzelner Merkmale voraus. Dazu gehören u.a. die Bedeutung einzelner Variablen, 
ihre Maßeinheiten und Informationen über das Zustandekommen der Messungen. Hierfür 
werden in der Regel die Variablen mit kurzen Überschriften (Labels) sowie mit kurzen Er- 
klärungen, die z.B. einen Fragetext enthalten können, versehen. 

Weitere Informationen können sich z.B. auf den Typ der Daten (etwa Textdaten, nume- 
rische Daten, Datumsformate), das Messniveau, die Einheiten der Messung und die gültigen 
und ungültigen bzw. fehlenden Antwortwerte beziehen (Missing Values). 

Je nach verwendetem Datenformat lassen sich unterschiedliche Metadaten zusammen in 
einer Datei mit den eigentlichen Umfragedaten ablegen. Eine Übersicht zu den gängigsten 
Formaten und ihrer Möglichkeiten für Metadaten im Bereich sozialwissenschaftlicher Da- 
tendokumentation und -analysen bietet der folgende Abschnitt. Wir beginnen damit, eher 
einfachere Strukturen mit wenigen Metadaten zu erörtern und beziehen dann komplexere 
Strukturen mit ein, die reichhaltigere Möglichkeiten der Dokumentation bieten. 


9.3.1 Dokumentation einfacher Datenstrukturen — Beispiel CSV 


Einfache Datenstrukturen werden oft im CSV-Format in einer Textdatei abgelegt. CSV steht 
für comma-separated values und wird von einer Vielzahl an Programmen für den Import 
oder Export einfach strukturierter Informationen verwendet (vgl. Spezifikation RFC4180). 
CSV-basierte Daten sind immer in einer rechteckigen Datenstruktur angeordnet, da die Daten 
in Zeilen (befragte Person) und Spalten (Variablen) organisiert werden. Die Zeichenkodie- 
rung der Werte ist nicht festgelegt, in der Regel wird aber 7-bit ASCII oder ein Unicode- 
Zeichenformat wie UTF-8 (vgl. Spezifikation RFC3629) verwendet. 

Zur Strukturierung und Abgrenzung der Daten müssen in der Textdatei spezielle Steuer- 
zeichen eingesetzt werden. Deren Kenntnis ist notwendig, um die Dateistruktur formal zu 
prüfen, z.B. ob die Anzahl von Spalten und Zeilen mit der Anzahl von befragte Person und 
Variablen übereinstimmt. Auch sollten die erfassten Einträge (Werte) des Datensatzes auf 
logische Konsistenz mit den Vorgaben des Codeplans kontrolliert werden, bevor die Daten 
für Analysen genutzt werden. 

Die Trennung von Datensätzen (Zeilen) wird in der Regel durch einen Zeilenumbruch 
gekennzeichnet, dabei kann es Unterschiede zwischen Betriebssystemen geben: In Windows 
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wird z.B. ein Zeilenumbruch durch die Steuerzeichen carriage return (Rückkehr an den Zei- 
lenanfang) und line feed (Zeilenvorschub) kodiert, unter Unix ist nur ein line feed üblich (vgl. 
Trost Media 2018). 

Die Trennung von Datenfeldern, also den Spaltenwerten, wird durch ein Komma codiert, 
kann aber auch durch Steuerzeichen wie Semikolon, Tabulatorzeichen (in dem Fall wird das 
Format auch als TSV bezeichnet) oder andere erfolgen. Die zur Trennung verwendeten Steu- 
erzeichen dürfen nicht als Zeichen in den Werten der Felder selbst vorkommen, z.B. in Form 
von Variablenwerten mit Dezimalstellen, da dies sonst zur fehlerhaften Trennung führen 
würde. Aus diesem Grund können auch Feldbegrenzungszeichen (z.B. doppelte oder einfa- 
che Anführungszeichen) verwendet werden. Innerhalb dieser Feldbegrenzungszeichen kön- 
nen dann die ansonsten zur Trennung reservierten Zeichen auch in Feldern genutzt werden. 

Das CSV-Format kennt keine Metadaten außer optional eine erste Zeile, die die Spalten- 
namen enthalten kann. Die in den Spalten abgelegten Zahlen-, Datums- und Uhrzeitwerte 
sind oft länderspezifisch und nicht im Vorhinein festgelegt. Daher sind häufig Zusatzinfor- 
mationen nötig, um die Inhalte einer CSV-Datei korrekt interpretieren zu können. Sind diese 
Metadaten nicht bekannt, kann mit Hilfe der vorliegenden Datei nur noch versuchsweise auf 
die verschiedenen Möglichkeiten von Werten geschlossen werden. Dieser Sachverhalt unter- 
streicht die Bedeutung einer transparenten und vollständigen Datendokumentation. 

Eine Bearbeitung des CSV-Formats ist mit einfachen Texteditoren, wie dem Notepad 
oder Notepad++, möglich und erlaubt es, die Datensätze auf korrekte Erfassung der Werte in 
den Spalten und die Metadaten in der Kopfzeile (Spaltennamen) zu kontrollieren. In den 
Editoren werden die Zeichenkodierung ebenso wie vorhandene Trennzeichen und Textbe- 
grenzungszeichen angezeigt. Tabellenkalkulationen wie Microsoft Excel und Apache Open- 
office Calc können CSV lesen und schreiben. Statistikprogramme wie R, SPSS oder STATA 
können ebenfalls CSV lesen und schreiben, dazu wird dann mit Hilfe eines Import- bzw. 
Export-Dialogs die Formatierung abgefragt. Da viele Programme zur Erstellung von Umfra- 
gen den Export der Daten im CSV-Format erlauben (zum Vergleich von Umfragesoftware 
siehe z.B. Siegl (0.J.)), wird es häufig als Ausgangsformat verwendet, um weitere Formate 
zu erzeugen, z.B. RDF zur Erzeugung von Linked Open Data (Lebo/Williams 2010). Im 
Falle von hierarchischen Datenstrukturen werden eher andere Datenformate verwendet, die 
ebenfalls textbasiert sind, etwa JSON (JavaScript Object Notation) oder XML (Extensible 
Markup Language), auf die hier nicht näher eingegangen werden soll (vgl. hierzu Nurseitov 
et al. 2009). 


9.3.2 Metadaten zur Variablendokumentation — Beispiel Statistikprogramme 


Statistikprogramme dienen in den Sozialwissenschaften der numerischen Auswertung von 
erhobenen Forschungsdaten. Sie umfassen zahlreiche Werkzeuge zum Forschungsdatenma- 
nagement, zur Datenmodellierung sowie der Ergebnispräsentation. Die Grundfunktionen 
werden u.a. durch Module zur Automatisierung (Programmcode, Syntaxeditoren) oder spe- 
zialisierte Analysemethoden ergänzt. Im Folgenden stehen die Datenmanagementfunktionen 
im Vordergrund, die der Erfassung von Metadaten zu Datensätzen und Variablen dienen. 
Diese werden im Laufe unterschiedlicher Phasen des Forschungsdatenmanagements durch 
eine Reihe von Einzelschritten bearbeitet. 

Daten einer empirischen Erhebung müssen zunächst definiert werden, bevor sie analysiert 
werden können. Dazu wird auf Basis des Messinstruments, z.B. eines Fragebogens, eine Da- 
tendefinition erzeugt. Diese umfasst die Erstellung von Variablendefinitionen und Kodie- 
rungsschemata eines Datensatzes. Dabei wird ein erhobenes Merkmal als Variable im Ana- 
lyseprogramm abgebildet und durch Variablenattribute beschrieben. Im Verlauf der weiteren 
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Datenaufbereitung bis zur Erstellung eines vollständigen Analysedatensatzes können schritt- 
weise zusätzliche Arten von Variablen z.B. für befragte Personen, Länder oder Zeitpunkte 
(administrative Variablen) oder zur Gruppierung von Einkommen oder anderen Indices (in- 
haltliche Variablen) definiert werden. Im Verlauf von Datenanalysen können Variablen er- 
gänzt, modifiziert oder harmonisiert werden. 

Wesentliche Metadaten zu Variablen können von allen gängigen komplexeren Statistik- 
programmen wie etwa SAS, SPSS, STATA oder R erzeugt werden (zum Vergleich von Sta- 
tistiksoftware vgl. inwt-statistics.de). Dabei handelt es sich vor allem um deskriptive und 
technische Metadaten, wie im Schaukasten 9.5 zusammengefasst. 

Metadaten in Statistikprogrammen liefern in der Regel wichtige Informationen, die im 
Laufe der Analyse der Daten herangezogen werden. Um hier eine Wiederholung und Über- 
prüfung von vorgenommenen Veränderungen nachvollziehen zu können, ist die Verwendung 
von Kommandoskripten für die Festlegung bzw. zur Veränderung der Datendefinitionen 
empfehlenswert. Dies wird z.B. in SPSS durch Syntax-Dateien und in STATA durch die 
sogenannten do-Files geleistet. Derartige Skriptdateien erlauben es, von einem Ausgangsda- 
tensatz immer wieder den Ablauf einer Datendefinition, -bereinigung oder -korrektur nach- 
zuvollziehen und so überprüfbar zu machen (vgl. Ebel 2015). Dies gilt insbesondere, wenn 
die Daten aus einfacheren Datenstrukturen, etwa CSV, importiert werden. 


Schaukasten 9.5: Deskriptive und technische Metadaten in gängigen Statistikprogrammen 
Deskriptive Metadaten: 


der Datensatzname und evtl. ein Label, 

die Variablennamen und ein Variablenlabel für das erhobene Merkmal, 

die möglichen Werte und ihre Value Labels zur Beschreibung der Merkmalsausprägungen 
und eine Definition fehlender Werte. 


Technische Metadaten: 


den Datentyp (numerisch, alphanumerisch, etc.), 
den Bereich gültiger Werte oder die Darstellung von Dezimalstellen. 


Quelle: Eigene Darstellung 


Für eine vollständige Erfassung aller Metadaten auf Variablenebene sind die Statistikpro- 
gramme jedoch in der Regel nicht geeignet. So kann beispielsweise für eine Variable zur 
Arbeitslosenquote nicht die methodische Grundlage der Daten und das Prozedere zur Ermitt- 
lung einer Arbeitslosenquote anhand standardisierter Metadaten erfasst werden. Im Label 
könnte lediglich etwa eine Definition oder ein Verweis auf ein zugrunde liegendes Konzept 
genannt werden. So macht es einen wesentlichen Unterschied, ob eine Befragung oder eine 
amtliche Meldung zur Berechnung der Quote verwendet wurde. Eine anschauliche Beschrei- 
bung der methodischen Grundlagen in diesem Kontext geben z.B. Bersheim, Oschmiansky 
und Sell (2014). Die Erfassung solcher methodischen Grundlagen durch Metadaten behan- 
delt Abschnitt 9.2.3. Darüber hinaus zählt es zur guten wissenschaftlichen Praxis, diese Kon- 
textinformationen für die Nachnutzung der Daten systematisch und nachvollziehbar in einem 
Methodenbericht darzustellen (Watteler 2010). 

Bei Variablen, die auf Umfragen beruhen, wird manchmal versucht, den Fragetext im 
Variablenlabel zu dokumentieren. Dies ist jedoch durch die Begrenzung der Zeichenlänge 
und fehlende Formatierung nur z.T. möglich. Darüber hinaus gehen längere Texte in den 
Labels bei vielen Analysetabellen in der Darstellung wieder verloren. Daher ist es sinnvoller, 
dort kurze Bezeichnungen zu verwenden (vgl. entsprechende Leitlinien und Regeln in Net- 
scher/Eder 2018; Ebel/Trixa 2015; Jensen 2012). 
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Besonders im Fall kodierter Variablen aus Fragen in Interviews ist eine Dokumentation 
der Codes und ihrer Zugehörigkeit zu den Antwortvorgaben zentral für eine richtige Inter- 
pretation der Analysen. Da während der Datenbereinigung und einer eventuellen Integration 
in einen Datensatz mit mehreren Wellen oder mehreren Populationen auch oft die Kodierun- 
gen verändert werden, muss auf eine Harmonisierung der veränderten Antwortvorgaben aus 
dem Fragebogen mit den Value Labeln im Datensatz geachtet werden. Ein Beispiel dazu 
wäre eine Integration zweier Datensätze, von denen einer die Verwendung von / als Code 
für Ja und 0 als Code für Nein hat und der andere eine Verwendung von 2 als Code für Ja 
und / als Code für Nein. Entsprechend müssen die Codes angepasst und ggf. die Value Label 
des integrierten Datensatzes korrigiert werden. Auch für solche Fälle empfiehlt sich die Ver- 
wendung von Skriptdateien zur Dokumentation der durchgeführten Veränderungen. In die- 
sen können die Berechnungsvorschriften als Kommentare abgelegt werden und erlauben so 
immerhin die Nachvollziehbarkeit durch andere Forschende. Ein solches nicht standardisier- 
tes Vorgehen ist jedoch kein Weg, um eine computergestützte Nachnutzung zu ermöglichen. 


9.3.3 Austausch von Metadaten zu Umfragedaten — Beispiel Triple-S 


Bereits in den 1990er Jahren wurde das Format Triple-S für den Austausch von Metadaten 
zu Umfragedaten entwickelt (Hughes/Jenkins/Wright 2000). Triple-S bezeichnet das XML- 
Format, das einen einfachen Austausch zwischen vielen Programmen in der Umfragefor- 
schung ermöglicht. Die Spezifikation von Triple-S folgt einer Document Type Definition 
(DTD). Im Jahr 2006 wurde die Version 2.0 des Formats publiziert und seit 2017 ist die 
Version 3.0 verfügbar, die u.a. eine UTF-8-Kodierung der Daten und eine HTML-Formatie- 
rung der Metadaten erlaubt (Triple-S 2017). Mit Hilfe der Angaben im XML-File können 
z.B. auch Daten im CSV-Format dokumentiert werden. Die möglichen Metadaten von 
Triple-S sind Variablennamen und -labels, Positionen und Identifier, Antwortwerte 
und -codes. Ein Beispiel für die Metadaten einer Variablen in Triple-S zeigt Abbildung 9.3. 

Zahlreiche Online-Umfrageprogramme (vgl. websm.org 2018) erlauben es, die Metada- 
ten im Triple-S-Format auszugeben, so z.B. LimeSurvey, die Produkte von NIPO, SnapSur- 
veys, SensusWeb, IdSurvey und viele andere. Für Triple-S gibt es einen Validierungsservice 
und einige freie Tools zur Anwendung mit den Programmen Quantum und IBM SPSS Sta- 
tistics (vgl. u.a. Export SPSS to Triple-S). Auch für die Statistiksoftware R existiert ein Paket 
sss, mit dem Triple-S verarbeitet werden kann. Die allermeisten mit Triple-S kompatiblen 
Programme verwenden die Version 1.1 oder 2.0 der Spezifikation. Der Vorteil bei der Ver- 
wendung der weiteren Metadaten in Analyseprogrammen besteht u.a. darin, dass für Tabellen 
ausführlichere Variableninformationen verwendet werden können, z.B. Fragetexte und Ant- 
worttexte. Bei der Übertragung werden zu lange Angaben jedoch oft abgeschnitten. Insge- 
samt werden Fehler bei der Interpretation, etwa wenn die Bedeutungen der Werte verwech- 
selt werden, jedoch durch den Austausch in einem standardisierten Format unwahrscheinli- 
cher, wie bereits in Abschnitt 9.3.2 erörtert. 


9. Metadatenstandards im Kontext sozialwissenschaftlicher Daten 169 


Abbildung 9.3: Beispiel für die Metadaten einer Variable in Triple-S 


<variable ident="24" type="single"> 
<name>tvl</name> 
<label>Wie viel Zeit verbringen Sie an einem gewöhnlichen Werktag 
insgesamt damit fernzusehen?</label> 
<position start="453" finish="453"/> 
<values> 
<range from="1" to="8"/> 
<value code="1">gar keine Zeit</value> 
<value code="2">weniger als 1/2 Stunde</value> 
<value code="3">1/2 bis zu 1 Stunde</value> 
<value code="4">mehr als 1, bis zu 1 1/2 Stunden</value> 
<value code="5">mehr als 1 1/2, bis zu 2 Stunden</value> 
<value code="6">mehr als 2, bis zu 2 1/2 Stunden</value> 
<value code="7">mehr als 2 1/2, bis zu 3 Stunden</value> 
<value code="8">mehr als 3 Stunden</value> 
</values> 
</variable> 


Quelle: Eigene Darstellung 


9.3.4 DDI-Metadaten zur Dokumentation von Variablen und Fragen 


Seit einigen Jahren ist das DDI-Format der De-facto-Standard für die Dokumentation von 
Umfragedaten aus den Sozialwissenschaften. Es stellt im Vergleich zu den bisher geschil- 
derten Standards die reichhaltigsten Möglichkeiten der Metadatendokumentation zur Verfü- 
gung. Einen generellen Überblick zu DDI beschreibt Abschnitt 9.1. Die Verwendung von 
Metadaten zum Finden sozialwissenschaftlicher Daten thematisiert Abschnitt 9.2.3. Im Fol- 
genden werden besonders für die Ebenen der Variablen und Fragen die umfangreichen Mög- 
lichkeiten von DDI dargestellt. 

Im DDI-Codebook-Format orientiert sich die Dokumentation an der Struktur eines Da- 
tensatzes (s. Abbildung 9.4). In der Baumstruktur der XML-Elemente findet sich die Doku- 
mentation von Variablen im zweiten Unterelement des Wurzelements (codeBook) im Ele- 
ment für die Datensatzbeschreibung (dataDescr). Unterhalb dieses Elements gibt es eine 
Liste der Variablen (jeweils das Element var). Zu jeder Variable gibt es eine Kurzbeschrei- 
bung (im Element /ab/) und ein Element für die Fragedokumentation (gsin) durch weitere 
Unterelemente. Im Beispiel sind der wörtliche Fragetext (gstnLit) und eine Sprunganweisung 
(forward, möglich wäre auch backward) enthalten; die Sprunganweisung referenziert eine 
nachfolgende Frage im Zusammenhang mit einer Filterfrage. Die Nummer der Frage im Fra- 
gebogen wird in einem Attribut zum Frageelement (segNo) angegeben. Weitere Möglichkei- 
ten für Unterelemente zur Fragedokumentation sind z.B. Interviewer-Anweisungen 
(ivulnstr) oder Vor- und Nachfragetext (preOTxt, postOTxt). Die Antwortvorgaben zur Frage 
finden sich in weiteren Unterelementen zur Variable (catgry), nicht jedoch — wie zu erwarten 
gewesen wäre — unterhalb der Frage. Jede Antwortvorgabe hat Angaben zum Wert (catValu), 
Label (/ab/), Antworttext (txt) und jeweils zu fehlenden Werten (Attribut missing mit Wert 
Y=yes oder N=no). Weitere Angaben zur Variable beziehen sich z.B. auf Informationen zur 
Ableitung aus einer anderen Variable (derivation), auf das technische Format (varFormat) 
oder Anmerkungen (notes). 
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Abbildung 9.4: Beispiel einer Variable und Frage im DDI-Codebook-Format (leicht gekürzt) 


xml version="1.0" encoding="UTF-16" 3 
<!DOCTYPE codeBook SYSTEM "http://www. icpsr.umich, edu/DDI/Version2-0.dtd"3 
<codeBook ID="ZA3811"> 
<stdyDscr> 
<citation><titlstmt> 
<titl>EVS - European Values Study 1999 - Integrated Dataset</titl> 
<IDNo>ZA3811</IDNo></titlstmt></citation> 
<stdyInfo><sumDscr><nation ID="S39" abbr="all countries"></nation></sumDscr></stdyInfo> 
</stdyDscr> 
<dataDscr> 
<var ID="VAR401" name="v293"> 
<labl>having steady relationship (Q86)</labl> 
<qstn ID="SQ584" seqNo="Q.86" sdatrefs="S39"> 
<qstnLit>Whether you are married or not: Do you live in a stable relationship 
with a partner?</qstnLit> 
<forward>if "no" - go to 88</forward> 
</qstn> 
<catgry ID="AV40881" missing="Y"> 
<catValu>-1</catvalu> 
<labl>don't know</labl> 
<txt ID="SA42073" sdatrefs="S39">don't know</txt> 
</catgry> 
<catgry ID="AV993" missing="N"> 
<catValu>1</catValu> 
<labl>yes</labl> 
<txt ID="SA1206" sdatrefs="S39">yes </txt> 
</catgry> 
<catgry ID="AV994" missing="N"> 
<catValu>2</catValu> 
<labl>no</labl> 
<txt ID="SA1207" sdatrefs="S39">no </txt> 
</catgry> 
<derivation> 
<drvdesc>Iceland: 
In the Icelandic questionnaire v293, v294 and v296 were grouped into one question as follows: 
"Are you now: 1 - Married, 2 - Living with a partner (but not married), 3 - Divorced, 4 - Separated, 
5 - Widowed, 6 - Single (never been married)'. V293 and v294 were reconstructed from original v296, v297. 
Turkey: 
In the Turkish questionnaire v293, v294 and v295 were not included to avoid possible offences. 
V296 was modified to give most of the information asked for in the Master Questionnaire. 
V293 and v294 were reconstructed from original v296, v297. V295 could not be reconstructed.</drvdesc> 
</derivation> 
<varFormat type="numeric" formatname="F2.0" schema="SPSS"/> 
<notes type="NoteNote">Trend question: EVS 2008 and EVS 1999. 
(Modified trend: interviewer instruction, question wording) .</notes> 
</var> 
</dataDscr> 
</codeBook> 


Quelle: Eigene Darstellung 


Eine Wiederbenutzung von Fragen durch mehrere Variablen wäre durch die Verwendung 
des Attributs gstn (nicht im Beispiel gezeigt) im Element gstn möglich. Dieses Attribut ent- 
hält eine Referenz auf die ID einer Frage, sodass die untergeordneten Textinhalte nicht wie- 
derholt aufgeführt werden müssen. Eine von verschiedenen Variablen verwendete Frage 
muss so nur einmal komplett dokumentiert werden und kann von allen Variablen referenziert 
werden. 

Im DDI-Lifecycle-Format stehen verschiedene Module für die Dokumentation bereit 
(vgl. Abbildung 9.1). Die Dokumentation von Fragen ist im Modul DataCollection vorgese- 
hen. Für die Dokumentation von Datensätzen und ihren Variablen sind es die Module Logi- 
calProduct für logische Informationen, PhysicalDataProduct für konkretere Informationen 
zum Datensatz und Physicallnstance für Dateiinformationen. Die Ablage der Elemente die- 
ser Module in einem ResourcePackage erlaubt die Wiederverwendung verschiedener Ele- 
mente wie Fragen, Antwortskalen, Codelisten und Textstatements in unterschiedlichen Stu- 
dien, Fragebögen oder Datensätzen. Das Beispiel in Abbildung 9.5 listet Elemente einer 
Frage auf, wie sie im ResourcePackage abgelegt werden: Eine Abfolge von Texten im Fra- 
gebogen (Sequence) enthält eine Referenz auf einen Fragebogentext (Statementltem) und 
eine konkrete Frage (OuestionConstruct). Dabei beinhaltet der Fragebogentext im Beispiel 
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eine Sprunganweisung zu einer anderen Frage. Die konkrete Frage enthalt einen Verweis auf 
das Frage-Item (QuestionItem). Hier kann eine Referenz auf eine Anweisung (/nterviewer- 
Instruction) eingefügt werden (nicht im Beispiel). Das eigentliche Frage-Item wiederum do- 
kumentiert die Fragenummer (in QuestionItemName mit dem Attribut context gleich questi- 
onNumber) und den wörtlichen Fragetext (in LiteralText), sowie mit Hilfe einer Referenz die 
möglichen Antwortvorgaben (CodeListReference). In der referenzierten CodeList sind die 
Antworten und ihre Werte dokumentiert (nicht in Abbildung 9.5 enthalten). 

Die DDI-Lifecycle-Dokumentation einer Studie (StudyUnit) nutzt diese Struktur, indem 
ein Verweis von der Datenerhebung (DataCollection) auf das Erhebungsinstrument (/nstru- 
ment) zeigt, welches wiederum die im Beispiel gezeigte Abfolge von Texten im Fragebogen 
(Sequence) referenziert. Ähnlich wird bei der Dokumentation der Variablen vorgegangen. 
Unter den logischen Informationen zum Datensatz (LogicalProduct) einer Studie wird eine 
Referenz auf die Liste der Variablen (VariableScheme) gesetzt. Die Verknüpfung zwischen 
Variablen und Fragen erfolgt unterhalb der Variable mit Hilfe eines Verweises auf ein Frage- 
Item. 


Abbildung 9.5: Beispiel einer Frage im DDI-Lifecycle-Format (gekürzt) 


<dce:Sequence> 
<r:Agency>de.gesis</r:Agency><r: ID>ZA3811_Sequence_Q375</r:ID><r:Version>1.0.0</r:Version> 
<de:ControlConstructReference> 
<r:Agency>de.gesis</r:Agency><r : ID>ZA3811_Statement_Q375</r:ID><r:Version>1.0.0</r:Version> 
<r:Typeofobject>StatementItem</r:Typeofobject> 
</de:ControlConstructReference> 
<de:ControlConstructReference> 
<r:Agency>de.gesis</r:Agency><r: ID>ZA3811_Construct_Q375</r:ID><r:Version>1.0.0</r:Version> 
<r:Typeofobject>QuestionConstruct</r:Typeofobject> 
</de:ControlConstructReference> 
</de:Sequence> 


<dc:StatementItem> 
<r:Agency>de.gesis</r:Agency><r: ID>ZA3811_Statement_Q375</r:ID><r:Version>1.0.0</r:Version> 
<dc:DisplayText> 
<dc:LiteralText><dc:Text xml:lang="en">if "no" - go to 88</dc:Text> 
<!-- CMM Portfolio V1: 6.3.2.3 Statementitem --> 
</dc:LiteralText> 
</dc:DisplayText> 
</dc:StatementItem> 


<dc:QuestionConstruct> 

<r:Agency>de.gesis</r:Agency><r: ID>ZA3811_Construct_Q375</r:ID><r:Version>1.0.0</r:Version> 
<r:QuestionReference> <!-- CMM Portfolio V1: 4.9.12 Association Question --> 
<r:Agency>de.gesis</r:Agency><r: ID>ZA3811_Q375</r:ID><r:Version>1.0.0</r:Version> 
<r:Typeofobject>QuestionItem</r:Typeofobject> 
</r:QuestionReference> 

</dc:QuestionConstruct> 


<dc:QuestionItem> 
<r:Agency>de.gesis</r:Agency><r:ID>ZA3811_Q375</r: ID><r:Version>1.0.0</r:Version> 


<r:UserID typeOfUserID="QuestionID">Q375</r:UserID><!-- CMM Portfolio V1: 6.1 Question-ID --> 
<dc:QuestionItemName context="questionNumber"><r:String>Q.86</r:String></dc:QuestionItemName> 
<!-- 6.2.1.1 Question Number --> 


<dc:QuestionItemName context="title-english"><r:String xml:lang="en">F375: ZA3811-V293-do you live 
in stable relationship with partner (Q86)</r:String></dc:QuestionItemName> 
<!-- CMM Portfolio V1: 6.3.1.1 Question Label --> 

<dc:QuestionText> 

<de:LiteralText><de:Text xml:lang="en">Whether you are married or not: Do you live in a stable 
relationship with a partner?</dc:Text> <!--CMM Portfolio V1: 6.3.2.2 Question Text --> 

</de:LiteralText> 

</de:QuestionText> 


<dc:CodeDomain> 
<r:CodeListReference> <!-- CMM Portfolio V1: 6.2.2 Reference to Codelist --> 
<r:Agency>de.gesis</r:Agency><r: ID>ZA3811_v293_CodLis</r:ID><r:Version>1.0.0</r:Version> 
<r: TypeOfObject>CodeList</r:TypeOfObject> 
</r:CodeListReference> 

</dc:CodeDomain> 

</dc:QuestionItem> 


Quelle: Eigene Darstellung 
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Zusatzlich kann eine Dokumentation einer abgeschlossenen Studie die Grundlage fiir die Er- 
stellung eines neuen Fragebogens sein. Die dann erstellten Verweise dokumentieren auch 
systematisch, aus welchen vorherigen Studien oder Fragebögen die Fragen übernommen 
wurden, sodass eine größere Transparenz der Datenkollektion gegeben ist. Eine dabei nutz- 
bare Funktionalität bildet die Versionierung von Elementen in DDI-Lifecycle: Soll beispiels- 
weise der Text einer Frage in einer neuen Verwendung leicht angepasst werden, wird eine 
neue Version der Frage dokumentiert, die nur den geänderten Text enthält, jedoch auf die 
anderen Elemente in ihrer ursprünglichen Version verweist. Hierdurch ergibt sich eine sys- 
tematische Dokumentation von Veränderungen und Anpassungen des Erhebungsinstruments 
(vgl. Recker/Zenk-Möltgen/Mauer 2017: 137). 


9.4 Software zur Erfassung und Bearbeitung von Metadaten 


Für die Verwaltung von Metadaten in einer komplexen Struktur wie DDI-Lifecycle ist die 
Unterstützung von Software erforderlich, da eine manuelle Codierung der XML-Strukturen 
unter Verwendung sehr vieler Referenzen aufwändig ist. Im Folgenden werden daher einige 
Programme kurz vorgestellt, die ein Management der Metadaten erlauben und die für For- 
schende in den Sozialwissenschaften eine relevante Rolle spielen. Mit Hilfe dieser Pro- 
gramme lassen sich die Metadaten nicht nur erstellen und editieren, sondern auch publizieren 
und durchsuchen. Die Auswahl berücksichtigt dabei besonders kostenfrei verwendbare Pro- 
gramme und erhebt keinen Anspruch auf Vollständigkeit. Weitere Software zur Nutzung des 
DDI Standard ist auf den Webseiten der DDI Alliance aufgeführt. 


9.4.1 Colectica for Excel 


Für die direkte Bearbeitung von Metadaten auf Studien- und Variablenebene in Microsoft 
Excel gibt es die Erweiterung Colectica for Excel. In der kostenfreien Standardversion lassen 
sich Datensätze mit DDI-Lifecycle-kompatiblen Beschreibungen versehen, die jedoch nur 
ganz grundlegende Elemente enthalten. Ebenso können Wertelisten, die etwa Antwortwerte 
zu Fragen enthalten, wiederverwendet und dokumentiert werden. In der kostenpflichtigen 
Professional Version können Daten und Metadaten aus SPSS, STATA und SAS nach Excel 
importiert werden. Der Vorteil ist, dass die Excel-Datei bei der Weitergabe dann auch immer 
die Metadaten enthält und so die Daten für Dritte besser verständlich sind. Weitere kosten- 
pflichtige Produkte von Colectica ermöglichen die Bearbeitung komplexer DDI-Lifecycle- 
Dokumentationen. 


9.4.2 Dataset Documentation Manager (DSDM) 


Das Programm Dataset Documentation Manager (DSDM) ist speziell für die Beschreibung 
von Datensätzen geeignet (Zenk-Möltgen 2006) und mit dem DDI-Codebook Standard kom- 
patibel. Es handelt sich um ein Stand-Alone Windows-Programm und kann SPSS-Datensätze 
einlesen. Anschließend kann die Dokumentation der Variablen, Fragetexten, Antwortvorga- 
ben, Codes, Intervieweranweisungen etc. erfolgen. DSDM bietet eine Unterstützung von 
Mehrsprachigkeit und Unicode. Ein Export der Metadaten in verschiedene DDI-Formate ist 
möglich. Zusätzlich kann mit dem Programm eine Erstellung von CodebookExplorer 
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Datenbanken durchgeführt werden — diese ermöglichen eine Suche in Metadaten, einen Ver- 
gleich und die Kategorisierung von Variablen, sowie eine einfache Analyse der Daten. 


9.4.3 DBKfree und DBKForm 


Die Software des Datenbestandskatalogs von GESIS wird als DBKfree in einer Open-Source- 
Variante zur Verfügung gestellt. Sie ermöglicht die Erfassung von Metadaten für Studienbe- 
schreibungen durch die Komponente DBKEdit bzw. für die Recherche im Web durch die 
Komponente DBKSearch. Das einfache Datenmodell des DBK ist kompatibel zu DDI-Code- 
book, die Metadaten werden als Export jedoch auch in DDI-Lifecycle zur Verfügung gestellt. 
Für Nutzer bietet DBKfree eine einfache und eine fortgeschrittene Suche, das Blättern in den 
Studienbeschreibungen und eine Anzeige nach verschiedenen Kriterien wie Themenkatego- 
rien, Primärforschenden oder geographischen Einheiten. 

Ein sehr einfaches freies Tool für die Erfassung von Metadaten auf Studienebene ist 
DBKForm. Es besteht aus einem HTML-Formular, welches lokal aufrufbar ist und eine DDI- 
Codebook kompatible XML-Datei erzeugt. Diese kann bei der Verwendung von DBKfree 
für einen Import oder für eine anderweitige Verarbeitung der DDI-Codebook XML-Datei 
genutzt werden. DBKForm unterstützt die grundlegenden Metadaten für eine Studienbe- 
schreibung und unterstützt die Verwendung eines kontrollierten Vokabulars für einige der 
Elemente. 


9.4.4 Nesstar Publisher und Server 


Ein komfortabler Editor für DDI-Codebook-kompatible Metadaten ist der kostenpflichtige 
Nesstar Publisher. Über Eingabeformulare können umfangreiche Metadaten zur Studie und 
zu den Variablen des Datensatzes eingegeben werden. Diese werden als XML-Datei im DDI- 
Codebook Format abgespeichert und können auch für die Publikation der Studie auf einem 
separat erhältlichen Nesstar Server genutzt werden. Der Nesstar Server bietet neben einer 
Weboberfläche für die Anzeige und Recherche in den Metadaten auch die Möglichkeit einer 
Onlineanalyse. Zusätzlich verfügbar sind verschiedene Programmierschnittstellen (Applica- 
tion Programming Interface, API) zur Anbindung an weitere Systeme (etwa eine Public API, 
eine REST API oder einen OAI-PMH Server). 


9.4.5  Dataverse 


Ein komplett als Open Source verfügbares System zur Dokumentation, Präsentation von und 
Suche in Forschungsdaten ist das Dataverse Project. Für die Entwicklung haben sich das 
Institute for Quantitative Social Science (IQSS), die Harvard University Library und die Har- 
vard University Information Technology zusammengeschlossen. Institutionen können mit 
der Software eine eigene Instanz eines Dataverse-Servers erstellen, in welchem die Forschen- 
den ihre Daten beschreiben, sichern und teilen können. Wissenschaftler/innen haben auch 
die Möglichkeit, nach Registrierung das Harvard Dataverse zu verwenden, ohne eine eigene 
Softwareinstanz installieren zu müssen. Eine Beschreibung von Daten in Dataverse ermög- 
licht die Zitation und eine ausführliche Beschreibung auf Studienebene, die zu Standards wie 
etwa DDI-Codebook, DataCite und Dublin Core kompatibel sind. 
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9.4.6 Archivist 


Ein weiteres Open-Source-Tool für die Dokumentation von Fragebögen ist die Software Ar- 
chivist, die von CLOSER (Cohort & Longitudinal Studies Enhancement Resources) entwi- 
ckelt wurde. Es ermöglicht die Dokumentation von Fragebögen im DDI-Lifecycle Standard 
ebenso wie den Austausch entsprechender Metadaten mit anderen Programmen, sodass die 
Software in einen Workflow für die Datendokumentation integriert werden kann. 


94.7  Cedar 


Für die Publikation und Suche im Web ist die Open-Source-Software Ced’ar der Cornell 
University entwickelt worden. Ced?ar steht für Comprehensive Extensible Data Documenta- 
tion and Access Repository und basiert auf dem DDI-Codebook Standard. Sie bietet neben 
der Anzeige von Metadaten auf Studienebene auch eine Suche auf der Variablenebene und 
einen Vergleich von Variablenbeschreibungen. 


9,5 Fazit 


Die Darstellung von Metadatenstandards und ihrer Anwendungsmöglichkeiten im Kontext 
sozialwissenschaftlicher Forschungsdaten zeigt, dass eine recht große Bandbreite zwischen 
sehr einfacher und sehr ausführlicher Dokumentation auf Studien- und Variablenebene vor- 
handen ist. Für Forschende ergibt sich daraus die Herausforderung, die für die eigenen An- 
wendungsanforderungen geeignete Mischung von Standard und Software auszuwählen. In 
diesem Zusammenhang sollte die Forderung, Replikationen von Forschungsergebnissen zu 
ermöglichen, dazu führen, dass ein Mindestmaß an Dokumentation für diesen Zweck bereit- 
gestellt wird. Ein Anlass zu einer erweiterten Dokumentation kann sein, dass auch anderen 
Forschenden die Möglichkeit eröffnet werden soll, weitere neue Forschungsfragen anhand 
eines erhobenen Datensatzes zu beantworten. Dass auch zunehmend die Erhebung, das Ma- 
nagement und die Erstellung von Dokumentationen zu Forschungsdaten in der wissenschaft- 
lichen Community als eigenständige und zitierfähige Forschungsleistung anerkannt werden, 
ist sicher ein zusätzlicher Anreiz, an einer qualitativ hochwertigen Dokumentation von For- 
schungsdaten zu arbeiten. 
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10. Zitierbarmachung und Zitation von Forschungsdaten 


Brigitte Hausstein 


Wahrend fiir Forschungspublikationen neben den traditionellen Angeboten der freie Zugang 
(Open Access) immer mehr zur gängigen Praxis wird, sind zunehmend auch Bemühungen 
hinsichtlich allgemein zugänglicher Datenpublikationen zu verzeichnen. Obwohl grundsätz- 
lich die Bereitschaft zur Weitergabe der Primärdaten existiert, scheitert dies oft an den feh- 
lenden Kapazitäten, die für die Aufbereitung und Metadatenbeschreibung notwendig sind. 
Dies gilt auch für die Sozialwissenschaften, die aber im Vergleich zu anderen Disziplinen 
bereits eine ausgeprägte Kultur des Data Sharing kennen (vgl. Huschka et al. 2011). 

Die Allianz der deutschen Wissenschaftsorganisationen! hat bereits Ende Juni 2010 in 
den Grundsätze(n) zum Umgang mit Forschungsdaten eine Regelung für Primärdaten gefor- 
dert, um bei Wissenschaftlerinnen und Wissenschaftlern das Bewusstsein für den Handlungs- 
bedarf und für den Nutzen von Primärdaten-Infrastrukturen zu schärfen. Von Seiten der For- 
schungsförderer wird immer stärker gefordert, nicht nur die Forschungspublikationen, son- 
dern auch die entstandenen Primärdaten im Sinne guter wissenschaftlicher Praxis öffentlich 
zugänglich und zitierbar zu machen. Daraus ergibt sich die besondere Bedeutung einer reinen 
Datenpublikation, mit allen Möglichkeiten der eindeutigen Identifikation und kompakten Zi- 
tierung, die für Textpublikationen bereits Standard sind. Eine korrekte Datenzitation ist nicht 
nur Ausdruck eines entwickelten Forschungsstandards, sondern erkennt auch die produzier- 
ten Daten als einen primären Forschungsoutput an und gewährt damit den Datenproduzenten 
die entsprechenden credits. Forschungsdaten sind nicht länger Nebenprodukte wissenschaft- 
lichen Arbeitens, sondern erhalten einen anerkannten Platz im Forschungsprozess. Eine kon- 
sistente Zitation unterstützt die Auffindbarkeit, Nachnutzbarkeit und Replizierbarkeit sowie 
die Messbarkeit der Nutzung der Daten. 

In den nachfolgenden Abschnitten dieses Kapitels werden die Zitierbarmachung von so- 
zialwissenschaftlichen Forschungsdaten und die damit verbundene Rolle der Persistent Iden- 
tifier dargestellt. Damit richtet sich das Kapitel insbesondere an Datenzentren und Bibliothe- 
ken, ist aber auch als Hintergrundwissen für Forschergruppen gedacht, die sich mit dem For- 
schungsdatenmanagement befassen. Abschnitt 10.1 fokussiert auf das DOI®-System zur per- 
sistenten Identifizierung. In Abschnitt 10.2 werden ausgewählte Serviceanbieter dieses Sys- 
tems vorgestellt. Abschnitt 10.3 und 10.4 stellen praktische Fragen des Workflows und der 
Metadaten in den Mittelpunkt und im Abschnitt 10.5 werden abschließend Empfehlungen 
zur Datenzitation gegeben, die insbesondere für Forschende relevant sind. 


10.1 Die Verwendung von Persistent Identifier 


Mittlerweile haben sich verschiedene Gruppen und Communities (wie z.B. FORCE 11, CO- 
DATA, DataCite, ANDS oder GESIS) damit beschäftigt, Guidelines und Empfehlungen zur 


1 Die Allianz der deutschen Wissenschaftsorganisationen ist ein Zusammenschluss der bedeutendsten Wissen- 
schafts- und Forschungsorganisationen in Deutschland. Sie nimmt regelmäßig zu Fragen der Wissenschafts- 
politik, Forschungsförderung und strukturellen Weiterentwicklung des deutschen Wissenschaftssystems Stel- 
lung. 
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Zitation von Forschungsdaten zu erstellen. Obwohl sich die Herangehensweisen prinzipiell 
ahneln, existiert kein einheitlicher Standard. Neben einigen von der Zitation wissenschaftli- 
cher Literatur bekannten Metadatenelementen (wie z.B. Autor, Titel, Herausgeber, Veröf- 
fentlichungsdatum) ist in vielen Empfehlungen die persistente Identifikation wesentlicher 
Bestandteil einer guten Datenzitation (vgl. z. B. Data Citation Synthesis Group 2014). In der 
digitalen Welt sind die Informationen dynamischer und fragiler als beispielsweise in ge- 
druckten Veröffentlichungen. Digitale Daten sind leichter veränderbar (z.B. durch Korrektu- 
ren, Ergänzungen oder Aktualisierungen) und die dadurch entstandenen neuen Versionen 
sind nicht immer eindeutig erkennbar (s. dazu auch die Ausführungen zur Versionierung in 
Abschnitt 10.3.2 in diesem Kapitel). Zusätzlich kann sich der ursprüngliche Speicherort än- 
dern, was die Auffindbarkeit der Daten ohne eine persistente Identifikation des Objektes fast 
unmöglich macht (vgl. CODATA-ICSTI 2013). 

Ein Weg zur Lösung der geschilderten Problematik ist der Einsatz von speziellen Persis- 
tent Identifier. Die Funktion von Persistent Identifier entspricht in etwa der einer ISBN- 
Nummer bei gedruckten Werken, die lediglich ein einziges Mal vergeben wird. Hinzu kommt 
die Unterscheidung zwischen dem Identifikator und der Lokation eines Objekts, die es er- 
möglicht, das Objekt unabhängig von seinem Speicherort zu identifizieren. Dies unterschei- 
det einen Persistent Identifier von einem Universal Ressource Locator (URL), der sich än- 
dern kann. Zur Sicherstellung der eindeutigen Vergabe und der Zuweisung von Kennung und 
Speicherort bedarf es eines automatisierten Dienstes. Jedem Persistent Identifier werden da- 
bei Adressinformationen, z.B. ein URL zugewiesen. Von zentraler Bedeutung sind hier ge- 
eignete organisatorische Maßnahmen, die die Verweise auf die tatsächlichen Speicherorte 
der Ressourcen aktuell halten. Programme können dann über einen sogenannten Resolver- 
dienst den zitierten Persistent Identifier zum entsprechenden URL auflösen, sodass ein Zu- 
gang zu den mit einem Persistent Identifier zitierten Objekt (wie z.B. Forschungsdaten) mög- 
lich wird. 

Es existieren mittlerweile für die Identifikation von elektronischen Textpublikationen di- 
verse Systeme von Persistent Identifier, die technisch gesehen auch die Basis für einen Ser- 
vice zur Identifizierung von Daten leisten können, wie beispielweise Archival Research Key 
(ARK), Digital Object Identifier (DOI), Handle, Library of Congress Control Number 
(LCCN), Persistent URL (PURL) oder Uniform Resource Name (URN). Auf einen gemein- 
samen Standard haben sich die verschiedenen Nutzergemeinden jedoch noch nicht geeinigt, 
da die Systeme im Prinzip auch gut ineinander überführbar sind. Um die langfristige Eignung 
zu beurteilen, ist hier weniger die technische als die organisatorische Ausgestaltung relevant. 

Im Weiteren wird auf die Verwendung des DOI-Systems zur persistenten Identifizierung 
und Zitierbarmachung sozialwissenschaftlicher Forschungsdaten eingegangen. Dieses hat 
sich nicht nur bei elektronischen Text-, sondern mittlerweile auch bei Datenpublikationen 
etabliert. 


10.1.1 Das DOI-System 


Das DOI-System ist ein Verfahren für die persistente Identifikation von Inhalten, die in di- 
gitalen Netzwerken angeboten werden (vgl. Schaukasten 10.1). 
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Schaukasten 10.1: Das DOI-System 


Das DOI-System wurde von der Association of American Publishers entwickelt und wird gegenwärtig von der 
International DOI Foundation (IDF) verwaltet. Die IDF besteht seit 1998 und unterstützt die Rechteverwaltung 
für geistiges Eigentum in digitalen Netzwerken, indem sie die Entwicklung und Verbreitung des DOI-Systems 
als gemeinsame Infrastruktur für das Content Management fördert. Die IDF ist eine not-for-profit-Organisa- 
tion und wird von einem Executive Board, das von den Mitgliedern des IDFs gewählt wird, kontrolliert. Die 
Mitgliedschaft ist offen für alle Organisationen, die sich mit elektronischem Publizieren und den damit ver- 
bundenen Technologien beschäftigen. 


Quelle: Eigene Darstellung 


Es kann für die Identifizierung von physikalischen, digitalen oder anderen Objekten benutzt 
werden (vgl. Paskin 2000). Die Identifikatoren (DOI-Namen) führen direkt zum Speicherort 
des bezeichneten Objektes. Technisch basiert das DOI-System auf der von der Corporation 
for National Research Initiatives (CNRI) entwickelten und von der DONA Foundation ad- 
ministrierten Handle-Technologie. Es wird ergänzt durch ein Metadatenmodell, das die zum 
Objekt gehörenden Kern-Metadaten (z.B. issueDate) mit dem DOI-Namen verbindet und im 
Handle-System ablegt (vgl. DOI Kernel Metadata Declaration). Auf der Basis gemeinsamer 
Regeln und der technischen Infrastruktur der International DOI Foundation (IDF) wird das 
DOI-System durch einen Zusammenschluss von zur Zeit zehn Registrierungsagenturen um- 
gesetzt (vgl. Schaukasten 10.2). 


Schaukasten 10.2: DOI-Registrierungsagenturen 


Airiti, Inc. 

China National Knowledge Infrastructure (CNKI) 

Crossref 

DataCite 

Entertainment Identifier Registry (EIDR) 

The Institute of Scientific and Technical Information of China (ISTIC) 
Japan Link Center (JaLC) 

Korea Institute of Science and Technology Information (KISTI) 
Multilingual European DOI Registration Agency (mEDRA) 
Publications Office of the European Union (EU Publications) 


Quelle: Eigene Darstellung auf Grundlage von IDF-Angaben (International DOI Foundation) 


10.1.2 Struktur und Resolving eines DOI-Namens 


Ein DOI-Name besteht aus einem Präfix und einem Suffix, wobei beide durch einen Schräg- 
strich getrennt werden und das Präfix stets mit 70. beginnt, wie in Abbildung 10.1 illustriert. 
Das Präfix, das beispielsweise einem bestimmten Datenzentrum oder einer speziellen Daten- 
kollektion zugeordnet sein kann (in der Abbildung: 10.1234), ermöglicht die Bildung einer 
unbegrenzten Anzahl von DOI-Namen, indem auf der Basis des Präfixes und verschiedener 
Suffixe eine beliebige Reihe von eindeutigen Identifier gebildet werden können. 


Abbildung 10.1: Struktur eines DOI-Namens 


10.1234/5678.abcd 
Präfix Suffix 


Quelle: Eigene Darstellung 


182 Brigitte Hausstein 


Um einen DOI-Namen zum zugehörigen URL aufzulösen, gibt es verschiedene Möglichkei- 
ten, die alle auf der zentral betriebenen Global Handle Registry basieren, die seit 2014 von 
der DONA Foundation betreut wird. Zum einen kann er über das vom CNRI angebotene 
Resolver-plug-in eingegeben und aktiviert werden. Eine andere Möglichkeit ist die Verwen- 
dung des Proxy-Servers des DOI-Systems bzw. des Handle-Systems. Die Eingabe des DOI- 
Namens zusammen mit der vorangestellten Zeichenkette https://doi.org/ in den Eingabe- 
schlitz jedes beliebigen Browsers führt den Nutzer direkt zum Speicherort des Objektes bzw. 
zu einer Webseite (landing page), auf der das Objekt und insbesondere dessen Zugangsbe- 
dingungen ausführlich beschrieben sind. 


10.2 DataCite und dajra 


Der DOI-Registrierungsservice für Forschungsdaten wird von der bei der IDF akkreditierten 
Registrierungsagentur DataCite zur Verfügung gestellt. DataCite ist ein 2009 in London ge- 
gründetes internationales Konsortium mit Mitgliedern aus mehr als 20 Ländern, die gemein- 
sam das Ziel verfolgen, die Akzeptanz von Forschungsdaten als eigenständige, zitierfähige 
wissenschaftliche Objekte zu fördern. Basierend auf einer einheitlichen technischen Infra- 
struktur bietet die Mehrheit der Mitglieder einen umfangreichen Service für interessierte For- 
schungsdatenzentren an. Darunter befinden sich das GESIS — Leibniz-Institut für Sozialwis- 
senschaften und das ZBW - Leibniz-Informationszentrum Wirtschaft, die seit 2010 Data- 
Cite-Mitglieder sind und gemeinsam den DOI-Registrierungsservice für Sozial- und Wirt- 
schaftsdaten dajra anbieten, wie in Abbildung 10.2 dargestellt (vgl. Hausstein 2012). 


Abbildung 10.2: Beziehung DataCite und dalra 


® 
Daten- d o 
zentrum d ra f 
DataÇite 


International 
DOI Foundation 


Quelle: Eigene Darstellung 


Schaukasten 10.3: Anzahl der über daļra registrierten DOI-Namen nach Ressourcentyp (Stand: Oktober 
2018) 


Text (630.314) 

Dataset (41.154) 
Collection (2.574) 

Film (608) 

Audiovisual (657) 
Sound (322) 

Interactive Resource (9) 
Data Paper (5) 

Image (1) 

Physical Object (1) 


Quelle: Eigene Darstellung auf Basis der Zahlen von DataCite 
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Seit seiner Etablierung hat sich dajra innerhalb der nationalen Sozial- und Wirtschaftswis- 
senschaften zur zentralen DOI-Vergabestelle für Forschungsdaten entwickelt. Mehr als 100 
Datenzentren und Datenanbieter haben über den von da|ra angebotenen Service bisher ca. 
677.000 DOI-Registrierungen vorgenommen (vgl. Schaukästen 10.3 und 10.4). 

Drei Viertel der beim Rat für Sozial- und Wirtschaftsdaten (RatSWD) akkreditierten For- 
schungsdatenzentren registrieren ihre Datenbestände über dalra. Darüber hinaus steht der 
DOI-Service sozial- und wirtschaftswissenschaftlichen Datenanbietern weltweit zur Verfü- 


gung. 


Schaukasten 10.4: Top Ten dajra Nutzer (nach Anzahl der registrierten Datensätze). Stand: Oktober 2018 


International Consortium for Social and Political Research (ICPSR) (29.9010) 

GESIS Datenarchiv (7512) 

Taiwanesische Datenarchiv (SRDA) (2385) 

Schweizer Datenarchiv FORS (445) 

Tschechische Datenarchiv (CSDA) (434) 

IBB - Datenzentrum im Bundesinstitut für Berufsbildung (228) 

Human Sciences Research Council, Südafrika (HSRC) (176) 

RWI - Leibniz-Institut für Wirtschaftsforschung (152) 

Datenzentrum des Projektes „Internationales Netzwerk für die demographische Evaluation von Po- 
pulationen und deren Gesundheit“ (INDEPTH) (113) 

10. ifo Institut — Leibniz-Institut für Wirtschaftsforschung an der Universitat München e. V. (106) 


SONDTPBUONZ-A 


Quelle: Eigene Darstellung auf Basis der Zahlen von DataCite 


Die Voraussetzungen und der Workflow für die DOI-Registrierung über dajra werden im 
folgenden Abschnitt näher beschrieben. 


10.3 Checkliste für die DOI-Registrierung 


Zur DOI-Registrierung berechtigt sind Organisationseinheiten aus dem sozial- und wirt- 
schaftswissenschaftlichen Forschungsbereich. Bei den Objekten kann es sich um For- 
schungsdaten auf Studienebene, Aggregatdaten, Mikrodaten oder auch Daten der qualitati- 
ven Forschung handeln. Hinsichtlich der Objekttypen wird nach Collection, Dataset, Text, 
Software, Image, Audiovisual, Interactive Resource, Event, Model, Physical Object, Service, 
Sound, Workflow und Data Paper unterschieden. 

Die DOI-Registrierung erfolgt über einen Benutzerzugang, der von dalra für das jeweilige 
Datenzentrum zur Verfügung gestellt wird. Vor der Erteilung des Zugangs für die Registrie- 
rung wird mit einem der beiden dajra-Betreiber ein Service Level Agreement (SLA) abge- 
schlossen. Dieses regelt das Vertragsverhältnis zwischen den Betreibern von da|ra und dem 
Datenzentrum im Rahmen der DOI-Registrierung auf der Basis der allgemeinen Regelungen 
der jeweils aktuell gültigen dajra Policy (dalra Registrierungsagentur für Sozial- und Wirt- 
schaftsdaten 2014). Es werden die gegenseitigen Verantwortlichkeiten festgehalten, die 
durch die Zuweisung für den DOI-Empfänger und die Registrierungsagentur dalra entstehen. 
Die Policy regelt auch die erforderlichen Entscheidungskompetenzen. Verträge mit Einzel- 
wissenschaftlern werden nicht geschlossen. Diesen wird empfohlen, ihre Daten in geeigneten 
disziplinären Datenzentren/Repositorien abzulegen (vgl. Kapitel 7). 

Bevor das Vertragsverhältnis begründet werden kann, sind gemeinsam mit dem Daten- 
zentrum verschiedene Voraussetzungen zu klären, wie in Schaukasten 10.5 dargestellt: 
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Schaukasten 10.5: Vertragliche Voraussetzungen für die Registrierung eines digitalen Objekts bei dajra 


Das Datenzentrum besitzt die Rechte an den Daten bzw. die Berechtigung, DOI-Namen für die Da- 
ten zu registrieren. 

Falls das nicht der Fall ist, muss die Zustimmung des Eigentümers der Daten bzw. des Primärfor- 
schers eingeholt werden. 

Vor Abschluss des Service Level Agreement mit dalra muss das Datenzentrum erklären, dass es 
die Daten entsprechend der Empfehlungen der DFG offen zugänglich und langfristig nutzbar hält. 
Die Daten sind für externe Nutzer zugänglich. 

DOI-Namen sind für Daten, die nur für eine interne Nutzung zur Verfügung stehen, eher ungeeignet. 
Jedoch können auch Daten mit eingeschränkter Zugänglichkeit (z.B. sensitive Daten) mit einem 
DOI-Namen versehen werden. In diesen Fällen müssen die Informationen über die Zugangsbedin- 
gungen an den jeweiligen Zugangspunkten (z.B. landing page) deutlich gemacht werden. 

Die Daten besitzen Zitationspotential. D.h., die Daten eignen sich zur Nachnutzung, sind von poten- 
tiellem Interesse für andere Forscher und könnten so in zukünftigen Arbeiten zitiert werden. Die 
Einschätzung darüber obliegt dem Datenzentrum gemeinsam mit dem Primärforscher. 


Quelle: Eigene Darstellung 


Im Zuge der DOI-Registrierung von Datenbeständen müssen weitere Fragen beantwortet 
werden. Darunter fallen u.a. die Granularität der Datenregistrierung, die Gestaltung des Suf- 
fixes des DOI-Namens oder die Verwaltung der zur Registrierung notwendigen Metadaten 
(s. Schaukasten 10.5). Ebenso muss geklärt werden, wie die Qualität der Metadaten organi- 
siert bzw. gesichert wird und welches Versionierungskonzept genutzt werden soll. 
Ungeachtet der Nutzung eines spezifischen DOI-Registrierungsservices ist die Klärung 
derartiger Fragen entscheidend für das weitere Vorgehen bei der Registrierung. dalra bietet 
dazu Best-Practice-Guidelines (vgl. Helbig/Hausstein 2014) und auch Einzelberatungen an. 
Die Verantwortung und die Entscheidung über das jeweilige Vorgehen liegen jedoch beim 
Datenanbieter. Im folgenden Abschnitt soll auf dalra-Empfehlungen zu zwei der wichtigsten 
Themen näher eingegangen werden: erstens Granularität und zweitens Versionierung. 


10.3.1 Granularität 


Die Granularität (Körnung) beschreibt den Grad der Aggregation der zu registrierenden Da- 
ten. Je nach Fachgebiet und Art der Daten können unterschiedliche Granularitätsstufen sinn- 
voll sein, wie in Schaukasten 10.6 dargestellt. Entsprechend der dalra-Policy (dajra Regist- 
rierungsagentur für Sozial- und Wirtschaftsdaten 2014) kann das Datenzentrum eine belie- 
bige Granularitätsstufe, wie z.B. Einzeldateien, Kollektionen von Dateien, Variablen oder 
Subsets, für die Identifikation der zu registrierenden Objekte wählen. Dabei sollten die an- 
gestrebte Publikations- und Zitationsweise sowie die potentielle Nachnutzung der Objekte 
einbezogen werden. Ferner sind die Empfehlungen der International DOI Foundation (IDF 
2014) zu berücksichtigen. Die für die zu registrierenden Objekte geltende Granularität wird 
im SLA zwischen der Registrierungsagentur und dem Datenzentrum vereinbart. 

Ein DOI-Name kann demnach jedem Objekt zugewiesen werden, unabhängig vom Um- 
fang des Objekts oder dem Verhältnis des Objekts zu einer größeren Entität. DOI-Namen 
können in jedem Präzisionsgrad und jeder Granularitätsstufe zugewiesen werden, die das 
Datenzentrum für angemessen hält. Dennoch gilt es bei der Entscheidung über die Granula- 
rität der Datenregistrierung verschiedene Aspekte zu berücksichtigen (s. Schaukasten 10.7). 
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Schaukasten 10.6: Beispiele für Granularitätsstufen der zu registrierenden Daten 


Ressourcentyp Mögliche Granularitätsstufen Beispiele (fiktiv) 

Datensatz eine Studie Panelstudie Test 
ein bestimmtes Befragungsjahr/Welle dieser Befragungsjahr 2005 der Panelstudie 
Studie Test 
ein bestimmtes Sample (Subsample) inner- Kohorte 4 im Befragungsjahr 2005 der 
halb eines Befragungsjahrs/einer Welle einer Panelstudie Test 
Studie 
Datentyp (Scientific Use File, Public Use File, die STATA-Datei (.dta) dieser Kohorte 
online etc.), Dateiformat (EXCEL, SPSS, 4 im Befragungsjahr 2005 der Panel- 
STATA, R) oder die Sprachversion eines studie Test 
Datenfiles 

Textmaterial eine Zeitschrift Zeitschrift Das Testen 
eine bestimmte Ausgabe dieser Zeitschrift Zeitschrift Das Testen in englischer 
(z.B. Sprachversion) Sprache 
ein Aufsatz innerhalb dieser Zeitschrift Artikel Die Panelstudie Test in der 

englischen Version der Zeitschrift Das 
Testen 

Video ein Video (eines Interviews, einer teilnehmen- Video der Interviews zur Panelstudie 
den Beobachtung etc.) Test im Befragungsjahr 2005 
eine Videosequenz innerhalb des Videos Video der Interviews von Kohorte 4 


Quelle: Eigene Darstellung 


Schaukasten 10.7: Bei der Granularität zu berücksichtigende Aspekte 


« — Zitation: 

Wie ist die gegenwärtige Zitations- und Forschungspraxis? 

Was soll zitiert werden? 

+ Verwendung der Daten: 

Wie sind die Bedürfnisse potentieller Nutzergruppen? 

Wie nutzen aller Wahrscheinlichkeit nach Forscher/Forschungsförderer/Verlage/Verwaltungen usw. die 
Daten? 

« Daten- bzw. Objekttyp: 

Ein komplexer Datensatz könnte beispielsweise eine granularere Identifierstruktur erfordern als ein Do- 
kument oder ein Bild. 

e Nachhaltigkeit: 

Das Datenzentrum muss in der Lage sein, jedes Element, das einen DOI-Namen erhalten soll, entspre- 
chend den Bedingungen für die Registrierung vorzuhalten, wie z.B. die Metadaten zur Registrierung. 


Quelle: Eigene Darstellung 


10.3.2 Versionierung 


Wie eingangs erwähnt, unterliegen digitale Elemente häufiger Veränderungen als analoge 
bzw. gedruckte Objekte. Forschungsdaten können sich aus den unterschiedlichsten Gründen 
ändern. Die Dokumentation dieser Änderungen im Rahmen des Forschungsdatenmanage- 
ments wird in Kapitel 5 ausführlich beschrieben. Im Zusammenhang mit der DOI-Registrie- 
rung ist die Vorgehensweise hinsichtlich der Versionierung der Forschungsdaten von beson- 
derer Bedeutung. 
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Entsprechend dem DOI Handbook der IDF (IDF 2014) haben sich die Mitglieder des 
DataCite-Verbundes auf folgende Regeln geeinigt (DataCite Business Practice Working 
Group 2012): 


+ Ein mit einem DOI-Namen versehenes Objekt darf nicht verändert werden. 

+ Jede Anderung muss als neue Version gespeichert und mit einem neuen DOI-Namen versehen wer- 
den. 

+ Die Verantwortlichkeit für die Versionierung liegt beim Datenzentrum. 


Es gibt verschiedene Möglichkeiten, die Versionierung umzusetzen. Generell sind dabei je- 
doch Einheitlichkeit und Systematik zu berücksichtigen. In diesem Zusammenhang sei ex- 
plizit auf die Versionierungsempfehlungen in Kapitel 5.3.2 verwiesen. Um diese im Zusam- 
menhang mit der DOI-Registrierung zu veranschaulichen, listet Schaukasten 10.8 einige Bei- 
spiele auf, die zeigen, wie eine Versionierung umgesetzt werden kann. 


Schaukasten 10.8: Beispiele für die Versionierung von Daten 


Ressource (z.B. Datensatz) Angaben zur Versionierung 

Schmitt-Beck, Rüdiger et al. (2009): Wahlkampf- + Version 1.0.0 war Pre-Release 

Panel (GLES). Version 3.0.0. GESIS — Leibniz- https://doi.org/10.4232/1.10364 

Institut für Sozialwissenschaften. Datensatz. e Version 2.0.0: Der Datensatz wurde um die noch feh- 
lenden Gewichte (Querschnitts- und Panelgewichte) 

doi:10.4232/1.11131. ergänzt. 

https://doi.org/doi:10.4232/1.11131 https://doi.org/10.4232/1.10365 


e Version 3.0.0: Fehlerhafte Werte wurden ersetzt und 
neue Variablen hinzugefügt. 


https://doi.org/10.4232/1.11131 


Office for National Statistics (2012): Quarterly e 1. Edition war erstes Release (ohne DOI) 
Labour Force Survey 1992-2011: Secure Data « 2. Edition mit minimalen Änderungen und DOI 
Service Access. 3. Edition. UK Data Archive. Da- https://doi.org/10.5255/UKDA-SN-6727-1 


e 3. Edition mit weiteren hinzugefügten Daten 


iOS IEIRDRSNETDI A: https://doi.org/10.5255/UKDA-SN-6727-2 


https://doi.org/10.5255/UKDA-SN-6727-2 


Quelle: Eigene Darstellung 


10.4 Metadatenqualität 


Jeder DOI-Name ist mit einer Reihe von Metadaten verknüpft, einer Sammlung von biblio- 
grafischen und inhaltlichen Informationen (Titel, Autor, Veröffentlichungsdatum, Copyright 
usw.), die sich auf den registrierten Datensatz beziehen. Mittels der Metadaten stellt der DOI- 
Name nicht nur einen Identifikator dar, sondern hält zusätzlich sämtliche relevanten Infor- 
mationen zum Datensatz bereit. Er wird damit zum wichtigen Werkzeug für die Datenhaltung 
und den Datenaustausch. 

Die Tatsache, dass Metadaten dauerhaft sind, schließt ihre Modifizierbarkeit nicht aus: 
Die Datenzentren können jederzeit und beliebig oft die Metadaten, die ihre Datensätze be- 
schreiben, ändern; insbesondere wenn der primäre URL, in die der DOI-Name aufgelöst 
wird, modifiziert werden muss. 

Angestrebt wird nicht nur die Aktualität der Metadaten, sondern auch deren hohe Quali- 
tät. Dies ist insbesondere wichtig, weil dadurch die Daten 
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im Sinne guter wissenschaftlicher Praxis gefunden, reproduziert und nachgenutzt werden können, 
mit anderen Daten und Objekten (z.B. dazugehörigen Publikationen) verknüpft werden können, 
korrekt zitiert werden können, 

nach Weiterleitung durch dalra in anderen internationalen Portalen (z.B. DataCite, OpenAIRE, EU- 
DAT-B2Find, Base etc.) und Zitationsindizes (z.B. Clarivate Data Citation Index) sichtbar werden. 


Daher sollten bei der Erstellung qualitativ hochwertiger Metadaten zur Registrierung der Da- 
ten einige wichtige Kriterien berücksichtigt werden (vgl. Bruce/Hillmann 2004). Hierzu zäh- 
len u.a. Richtigkeit, Vollständigkeit, Provenienz (Herkunft), Konsistenz sowie Aktualität und 
Verfügbarkeit der Metadaten. Da die Auffindbarkeit maßgeblich von der Metadatenqualität 
abhängt, ist es ratsam, die Perspektive potentieller Nachnutzer der Forschungsdaten zu be- 
rücksichtigen und die zur Verfügung gestellten Metadaten daraufhin zu überprüfen. 

Das dalra-Metadatenschema bildet die zentrale Voraussetzung zur Sicherung der Meta- 
datenqualität, da es die Möglichkeit bietet, über die Pflichtangaben hinaus weitere Informa- 
tionen zu den Ressourcen anzugeben (vgl. Koch et al. 2017). Diese Zusatzinformationen 
werden im Interesse der Datenzentren von dalra empfohlen, da sie die Auffindbarkeit der 
beschriebenen Daten wesentlich erhöhen. Das dalra-Metadatenschema basiert auf den Stan- 
dards der Data Documentation Initiative (DDI), die in Kapitel 9.1 näher erläutert werden. 
Eine formale Prüfung auf Korrektheit der Metadaten in Bezug auf das vorgegebene Schema 
wird bereits automatisiert bei der Übermittlung der Metadaten (via Webschnittstelle und 
XML-Upload) an dalra vorgenommen. Für Nutzer des Webinterfaces erfolgt die Prüfung im 
Hintergrund und es werden zusätzlich umfangreiche Hilfetexte zur Verfügung gestellt. 

Ausgangsbedingung für die DOI-Registrierung ist ein Kernset aus sechs Pflichtfeldern. 
Diese beinhalten den allgemeinen Ressourcentyp, den Titel, die Primärforschenden, den 
URL, deren Veröffentlichungsdatum und Verfügbarkeit. Die Angabe weiterer optionaler 
Elemente sowie deren Unterelemente werden aus den oben diskutierten Gründen ausdrück- 
lich empfohlen und sind in Schaukasten 10.9 zusammengefasst. 


Schaukasten 10.9: Optionale (Unter-)Elemente des da|ra Metadatenschemas 


Version 

Sprache 
Beschreibung 
Erfassungsmethode 
Zeitdimension 
Klassifikation 
Schlagwörter 
Geographischer Raum 
Mitwirkende 
Finanzierer 
alternativer Identifier 
Identifier für Personen 
Angaben zum Datensatz 
Relation 


Quelle: Eigene Darstellung (nach Koch et al. 2017: 9) 


Unterstützend wirken hierbei Normdaten, wie z.B. die Gemeinsame Normdatei (GND), und 
weitere kontrollierte Vokabulare (z.B. für die Elemente Erfassungsmethode/collectionMode 
und Zeitdimension/timeDimension) des dalra-Metadatenschemas, um eine Eingabe zu ver- 
einfachen und zu beschleunigen. 

Der Screenshot in Abbildung 10.3 illustriert die Anzeige der angereicherten Metadaten 
zum Datensatz GESIS Panel — Standard Edition in der dalra-Gesamtansicht. Der mit dem 
DOI-Namen verbundene Link verweist auf den Standort des Datensatzes und öffnet die zu- 
gehörige Studienbeschreibung im GESIS-Datenbestandskatalog (GESIS DBK). 
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Um die Daten auch international gut sichtbar zu machen, ist es wichtig, dass die Metada- 
ten neben der Landessprache in englischer Sprache zur Verfiigung gestellt werden (seit 2017 
unterstützt das dalra-Metadatenschema Sprachen nach ISO Code 639-1). 


Abbildung 10.3: Metadaten zum Datensatz GESIS Panel — Standard Edition in der da|ra Gesamtansicht 


Gesamtansicht 
GESIS Panel - Standard Edition gesis eres 


Emebungsverfahren 


Version 2.0.0 


Typ der Ressource Datensatz 
Daten und 
Creator » GESIS Panel Team Dateiinformationer 


Veröffentlichungsdatum ‚Anmerkungen 


Mu agi 
(Datenemebung) 


Sprache Deutsch 


Klassifikation 


lungen und Verhalteı 


Inumwel 


efugbarkelt 


Beschreibung 


t; Telinahmeort 
nline) 


Referenzzeitraum 


Verbundene Identifier 


Quelle: dajra — Datenregistrierungsagentur für Sozial- und Wirtschaftsdaten 


10.5 Empfohlene Datenzitation 


Die sich entwickelnden bibliometrischen Verfahren, die die Leistung der Datenproduktion 
ähnlich den Impact-Faktoren bei Textpublikationen messbar machen sollen, tragen zu einer 
erhöhten Relevanz von Datenzitationen bei. Damit stellt sich für Wissenschaftlerinnen und 
Wissenschaftler, die Daten sekundäranalytisch in ihren Arbeiten verwenden, die Frage nach 
einer korrekten Zitierweise, wie u.a. in Kapitel 8.3.2 erörtert. Obwohl bereits 2014 die Joint 
Declaration of Data Citation Principles (JDDCP 2014) verabschiedet wurde und diese von 
vielen Organisationen unterstützt wird, führten diese allgemeinen Prinzipien bisher zu kei- 
nem übergreifend verbindlichen Standard für die Datenzitation. Die 2016 veröffentlichte 
Data Citation Roadmap (Fenner et al 2016) gibt den Datenrepositorien lediglich eine Reihe 
von Empfehlungen zur automatisierten Unterstützung der Datenzitation an die Hand. Bis zur 
Umsetzung und Akzeptanz dieses Vorgehens soll an dieser Stelle auf die empfohlene Zitie- 
rung auf der Basis des dalra-Metadatenschemas verwiesen werden. Dieses Vorgehen ent- 
spricht dem Standard von DataCite (DataCite Metadata Working Group 2017) und ist in 
Schaukasten 10.10 dargestellt. 
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Schaukasten 10.10: DataCite Standard zur Zitation des Sozio-oekonomischen Panels 
Creator (Veröffentlichungsdatum): Titel. Datenzentrum. Identifier. 
Zum Beispiel: 


Schupp, Jurgen; Kroh, Martin; Goebel, Jan; Bartsch, Simone; Giesselmann, Marco et. al. (2013): Sozio- 
oekonomisches Panel (SOEP), Daten der Jahre 1984-2012. Version: 29. SOEP- Sozio-oekonomisches Pa- 
nel. Dataset. https://doi.org/10.5684/soep.v29. 


Quelle: Eigene Darstellung 


Es kann auch wünschenswert sein, zwei weitere Elemente — Version und Typ der Res- 
source — anzugeben, wie in Schaukasten 10.11 illustriert. 


Schaukasten 10.11: Erweiterter DataCite Standard zur Zitation 
Creator (Veröffentlichungsdatum): Titel. Version. Datenzentrum. Typ der Ressource. Identifier. 
Zum Beispiel: 


Fahrenberg, Jochen (2010): Freiburger Beschwerdenliste FBL. Primardaten der Normierungsstichprobe 
1993. Version 1.0.0. ZPID- Leibniz-Zentrum fiir Psychologische Information und Dokumentation. Dataset. 
https://doi.org/10.5160/psychdata.fgjn05an08. 


Rattinger, Hans; Roßteutscher, Sigrid; Schmitt-Beck, Rüdiger; WeRels, Bernhard (2012): Wahlkampf-Panel 
(GLES 2009). Version: 3.0.0. GESIS Datenarchiv. Dataset. https://doi.org/10.4232/1.11131. 


Quelle: Eigene Darstellung 


Dabei gelten neben den Definitionen im dalra Metadatenschema folgende zusätzliche Emp- 
fehlungen: 


* Creator: Maximal fünf Primärforscher/innen sind möglich, danach ist mit ‚et al.‘ abzukürzen. 

+  Veröffentlichungsdatum: Hier wird nur das Jahr der Veröffentlichung der Ressource angegeben. 

+ Titel: Hier sind der Titel und eventuell weitere Titel der Ressource anzugeben. 

+ Version: Die Version repräsentiert die Versionsnummer der Ressource. 

+  Datenzentrum: Name des Datenzentrums/der Institution, das/die die Ressource veröffentlicht hat. 

+ Typ der Ressource: Bezeichnung des generellen Typs einer Ressource. Hierzu kann, wie weiter oben 
bereits erwähnt, unter den möglichen Ressourcentypen Collection, Dataset, Text, Software, Image, 
Audiovisual, Interactive Resource, Event, Model, Physical Object, Service, Sound, Workflow, Data 
Paper ausgewählt werden. 

+ Identifier: Hier erscheint ein Persistent Identifier. Für Angaben mit DOI-Namen kann der Identifier 
optional im Originalformat und in einem http-Format erscheinen. Um direkt auf die Quelle des Ob- 
jektes verweisen zu können, sollte der DOI-Name mit dem URL des Resolver abgedruckt werden 
(https://doi.org/10.4232/1.10770). 


Um diese Angaben für die zu zitierenden Forschungsdaten zu erhalten, empfiehlt es sich, 
entweder das da|ra-Portal oder DataCite Search zu konsultieren. Zusätzlich gilt zu beachten, 
dass manche Datenanbieter spezielle Zitierweisen wünschen bzw. diese zwingend als Teil 
der Datennutzungsbedingungen festgelegt haben (z.B. National Educational Panel Study, 
NEPS). Um dem gerecht zu werden, sollte der DOI-Name der zu zitierenden Forschungsda- 
ten zunächst aufgerufen werden (vgl. Abschnitt 10.1.2). Unter dem URL (landing page) sind 
dann in der Regel die Nutzungsbedingungen nachzulesen. 

Darüber hinaus gibt es in Fachzeitschriften verschiedene Zitationsformate, die die oben 
beschriebene Zitationsweise abwandeln oder stark an die Zitation von Textpublikationen an- 
passen. Die Verwendung eines dieser Formate kann notwendig sein, wenn der Herausgeber 
einer Zeitschrift dieses Vorgehen verbindlich bei der Einreichung eines Beitrages vor- 
schreibt. DataCite bietet daher in Kooperation mit der Registrierungsagentur crossref ein 
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Werkzeug an, mit dessen Hilfe auf der Basis des DOI-Namens die Umwandlung in ein ge- 
wünschtes Format leicht möglich wird. Der DOI Citation Formater unterstützt 500 in der 
Verlagswelt übliche Zitationsformate in 45 Sprachen. 


10.6 Fazit 


In diesem Kapitel wurden die Möglichkeiten und Herausforderungen bei der Zitierbarma- 
chung von Forschungsdaten und die damit verbundene Rolle der Persistent Identifier darge- 
stellt. Es konnte anhand von Beispielen gezeigt werden, dass in relativ kurzer Zeit eine Reihe 
von erfolgversprechenden Services entwickelt wurden, die die Wissenschaftler für die Zitier- 
barmachung ihrer Forschungsdaten nutzen können. So bietet die Verwendung von Persistent 
Identifier in Form von DOI-Namen die Möglichkeit, publizierte Forschungsdaten eindeutig 
und dauerhaft zitierbar und referenzierbar zu machen. Auf diese Weise sind inzwischen 
schätzungsweise weltweit über 14 Millionen Forschungsdaten aus den unterschiedlichsten 
Wissenschaftsdisziplinen zitierbar (DataCite Statistik, Stand Oktober 2018). Die noch aus- 
stehende Entwicklung eines allgemeingültigen Zitationsstandards für Forschungsdaten und 
letztlich auch deren Anwendung in den Textpublikationen durch die Wissenschaftlerinnen 
und Wissenschaftler wird über den Erfolg dieses Vorgehens entscheiden. 
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11. Big Data & New Data: Ein Ausblick auf die 
Herausforderungen im Umgang mit Social-Media-Inhalten 
als neue Art von Forschungsdaten 


Katrin Weller 


Seit ungefahr einem Jahrzehnt wird (auch) in wissenschaftlichen Kontexten der Nutzen von 
neuartigen, großen Datenbeständen für das bessere Verständnis zahlreicher Lebensbereiche 
erprobt. Viele dieser neuartigen Daten stammen aus Internetplattformen. In den Fokus der 
Wissenschaftler/innen rücken beispielsweise Suchmaschinen (Choi/Varian 2012), Kommen- 
tarbereiche von Zeitungen (Ruiz et al. 2011) sowie Social-Media-Plattformen (z.B. Face- 
book, LinkedIn, reddit, Twitter, Pinterest oder Tumblr). Social-Media-Plattformen können 
aus verschiedenen Gründen interessant sein. Oft sind insbesondere Nutzernetzwerke, gekop- 
pelt an Text oder Multimediainhalte, von Interesse. Generell haben Onlineplattformen das 
Potential, Einblicke in Nutzeraktivitäten zu geben, etwa durch das Auslesen von Suchbegrif- 
fen, die von Nutzer/innen eingegeben werden, durch das Auswerten des Klickverhaltens auf 
verschiedene Links, durch das Aufdecken verschiedener Nutzernetzwerke oder durch das 
komplette Auswerten ganzer Textbeiträge, was beispielweise Einblicke in Meinungen und 
Stimmungen verspricht. 

Manches daran ist neu, insbesondere die Vielfalt der Datenquellen, aber das grundlegende 
Prinzip erinnert stark an die Idee der prozessgenerierten Daten, die als nicht-reaktives Ver- 
fahren bereits ihren Platz in der sozialwissenschaftlichen Forschung gefunden haben, wie 
beispielsweise Daten zum Arbeitsmarkt, zur Einkommensstruktur, zur Mediennutzung, zum 
Bildungsstand. Dennoch wird im Kontext von Internetdaten auch oft von New Data gespro- 
chen. Für Sozialwissenschaftler/innen werden Nutzungsdaten aus Internetportalen als eine 
mögliche neue Datenart angesehen, die — unabhängig von Einflüssen durch Studiendesigns — 
nicht nur Verhaltensweisen, sondern auch Meinungen offenlegen kann. Noch häufiger anzu- 
treffen ist jedoch die Bezeichnung Big Data, die darauf anspielt, dass aus Internetdiensten 
große Menge von einzelnen Datenpunkten mit verhältnismäßig geringem Aufwand gewon- 
nen werden können. 

Von großen Datensätzen zu sprechen, ist zwar in vielen Fällen angebracht, dennoch drif- 
ten die Meinungen darüber, ab wann eine Datenmenge als groß anzusehen ist, innerhalb der 
Forschungsgemeinschaft und vor allem auch zwischen den einzelnen Disziplinen auseinan- 
der: Für die einen ist alles groß, was den Rahmen der manuellen Inhaltsanalyse sprengt oder 
was nicht mehr in eine Excel-Tabelle passt, für andere fängt groß erst bei mehreren Terrabyte 
an und erfordert den Einsatz verteilter Rechnersysteme für die Speicherung und Auswertung 
der Daten. Kitchin und McArdle (2016) vergleichen 26 Big-Data-Datensätze und zeigen auf, 
wie schwierig es ist, allgemeingültige definitorische Kriterien für die Charakterisierung von 
Big Data festzulegen. 

Die Frage, welche Art von Daten als Big Data bezeichnet werden, findet ganz unter- 
schiedliche Auslegungen. Je nachdem, ob sie beispielsweise aus der Perspektive von Physi- 
ker/innen, Geograph/innen, Informatiker/innen, Geistes- oder Sozialwissenschaftler/innen 
betrachtet wird, umfasst die Bandbreite beispielsweise die Temperaturmessungen aller Wet- 
terstationen über mehrere Jahre oder das gesamte Vokabular in Shakespeares Werken. Über 
Fächergrenzen hinweg gelten dabei Onlineumgebungen als interessante neue Datenquelle, 
die für ihre jeweiligen Fragestellungen neue Erkenntnisse versprechen (Kinder-Kurlanda/ 
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Weller 2014: 96f). Aus sozialwissenschaftlicher Sicht ist das tatsächliche Datenvolumen mit- 
unter eher nebensächlich. Entscheidender ist zunächst vielmehr die Frage nach der Daten- 
qualität und der eigentlichen Aussagekraft von Datentypen, die ursprünglich nicht speziell 
für wissenschaftliche Fragestellungen gedacht waren und daher auf verschiedene Weise lü- 
ckenhaft erscheinen können. 

Da vielfach insbesondere die Nutzeraktivitäten und von Nutzer/innen generierte Inhalte 
wie Texte, Fotos und Videos als interessante Daten angesehen werden, sind sogenannte 
Social-Media-Plattformen eine Quelle für neuartige Forschungsdaten und deren Analyse. 
Hierzu zählen beispielsweise Dienste wie Facebook, Twitter, Instagram oder Foursquare so- 
wie die Online-Enzyklopädie Wikipedia oder von Privatpersonen betriebene Blogs. Oft wer- 
den sie als eigener Forschungsgegenstand betrachtet. Jedoch spielen sie auch zunehmend in 
Kombination mit anderen Forschungsdaten eine Rolle, etwa für Vergleiche mit klassischen 
Medienanalysen oder als Ergänzung zu Umfragedaten. In diesem Kapitel geht es darum, 
Social-Media-Daten als eine Beispielmenge von Big bzw. New Data vorzustellen. Es sollen 
grundsätzliche Möglichkeiten der Forschung mit Social-Media-Daten aufgezeigt (Abschnitt 
11.1 und 11.2), aber auch die bislang offenen Probleme der wissenschaftlichen Nutzung er- 
läutert werden. Für Letzteres werden insbesondere die Datenqualität thematisiert (Abschnitt 
11.3) sowie Probleme der Archivierung von Social-Media-basierten Forschungsdaten (Ab- 
schnitt 11.4) und drohender Datenverfall (11.5). 


11.1 Social-Media-Daten als Forschungsgrundlage 


Um die Frage zu beantworten, was alles als Social-Media-Daten zählt, müsste man zunächst 
definieren, was sich hinter Social Media verbirgt. Eine Definition von Social Media wird 
jedoch zunehmend schwieriger, denn eine Unterscheidung in klassisches Web und Social- 
Media-Plattformen als Verkörperung des Mitmach-Webs oder Web 2.0 (O’Reilly 2005) ist 
heute kaum noch möglich. 

Als diese Bezeichnungen vor mehr als zehn Jahren in Umlauf gebracht wurden, war es 
ohne besondere technische Kenntnisse kaum möglich, eigene Beiträge im Web zu veröffent- 
lichen. Heute hingegen können innerhalb verschiedener Plattformen Bilder, Videos und 
Texte geteilt werden, es können Webinhalte kommentiert und bewertet und persönliche Be- 
ziehungen in Netzwerkplattformen abgebildet werden. Mitunter werden direkt aus dem 
Smartphone weitere Daten mit in die Onlineplattformen eingespeist — etwa der aktuelle 
Standort der Nutzer/innen, der in Form eines Geocodes einem Foto angehängt werden kann. 
Die Einbeziehung der Nutzer/innen in die Produktion von Webinhalten gilt als eines der 
Hauptmerkmale für Social-Media-Angebote. 

Nach Schmidt (2009) spielt es darüber hinaus eine wesentliche Rolle, ob Nutzer/innen 
innerhalb einer Webplattform eigene Profile anlegen und pflegen. Diese dienen der Selbst- 
darstellung und der Vernetzung mit anderen Nutzer/innen innerhalb der Plattform. Anhand 
dieses Kriteriums ließen sich beispielsweise anonyme Kommentare in den Kommentarspal- 
ten von Onlinezeitungen oder Produktbewertungen in Einkaufsportalen ausklammern, da 
diese in der Regel nicht an ein individuelles Profil geknüpft sind und Nutzer/innen sich nicht 
untereinander vernetzen. Doch auch hier sind die Übergänge fließend. Die stetige Weiterent- 
wicklung von Internetdiensten und Nutzungsgewohnheiten macht eine dauerhafte Definition 
von Social Media noch schwieriger. 

Für die Nutzungsmöglichkeiten in der Forschung kommt es jedoch letztlich weniger auf 
eine präzise Definition an, als vielmehr darauf, zielsicher entscheiden zu können, welche 
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Datenquellen fiir die Beantwortung einer spezifischen Forschungsfrage in Betracht kommen. 
Hierzu muss man sich als Forscher/in stets einen guten Uberblick tiber verschiedene Ange- 
bote und ihre Eigenschaften verschaffen, was dadurch erschwert wird, dass hier die Entwick- 
lung oft rasant voranschreitet. 

Interessant für die sozialwissenschaftliche Forschung können dabei grundsätzlich alle 
Plattformen sein, aus denen sich ein Erkenntnisgewinn über Verhalten oder Meinungen der 
Nutzer/innen ableiten lässt (Lazer/Radford 2017: 21f). Die Frage, ob dabei Aktivitäten an ein 
Nutzerprofil gebunden sind, wird vor allem dann interessant, wenn zumindest rudimentäre 
demographische Informationen oder die Position einer Person in einem Netzwerk mit ausge- 
wertet werden sollen. Doch auch die Verfügbarkeit von Profilen bedeutet längst nicht, dass 
hieraus sinnvolle demographische Informationen abgeleitet werden können. Oft sind die Pro- 
filinformationen für sozialwissenschaftliche Ansprüche dürftig, Angaben zu Geschlecht, 
Wohnort, Alter oder Beruf sind selten akkurat verfügbar. Teilweise wird versucht, diese In- 
formationen anderweitig abzuleiten, beispielsweise das Geschlecht auf Grundlage von Pro- 
filbildern oder Namensangaben (Karimi et al. 2016). 

Zahlreiche Plattformen üben einen starken Reiz auf Wissenschaftler/innen verschiedener 
Disziplinen aus. Auf spezialisierten wissenschaftlichen Konferenzen im Bereich der Social- 
Media-Forschung, wie etwa die International Conference on Web and Social Media 
(ICWSM), die Social Media & Society Conference oder die Web Science Conference, findet 
man u.a. Studien zu bekannten Plattformen wie YouTube, Wikipedia, reddit, Tumblr, aber 
auch zu Dating-Plattformen, Online-Games oder Portalen zur Bewertung von Produkten. Be- 
sonders prominent in der Social-Media-Forschung sind jedoch die Plattformen Facebook und 
Twitter (Weller 2015: 285). 

Untersucht werden beispielsweise politische Kommunikation (z.B. Jungherr/Schoen/ 
Jürgens 2016), insbesondere auch im Kontext von Wahlprognosen (z.B. Metaxas/Mus- 
tafaraj/Gayo-Avello 2011), Gesundheit (z.B. Song/Gruzd 2017), Protest und Aktivismus 
(z.B. Jungherr/Jürgens 2014) oder Vertrauen und Diskriminierung (z.B. Edelman/Luca 
2014). Lazer und Radford (2017) fassen derartige Forschungsansätze unter der Beschreibung 
Digital Life zusammen. Gemeint ist damit Forschung, die auf Onlineplattformen basiert, die 
zunehmend in alltägliche Lebensbereiche integriert sind und daher auch potentiell etwas über 
die Lebensweise der Nutzenden aussagen können. 

Je nach Fragestellung stehen verschiedenste Datenformate im Vordergrund. Mal werden 
vor allem von Nutzenden verfasste Texte ausgewertet, mal rücken Fotos sowie andere Bilder 
oder auch Multimediadateien in den Fokus. In anderen Fällen sind es die Beziehungen zwi- 
schen den Nutzenden, die auf verschiedenen Interaktionen basieren können (z.B. explizite 
Verbindungen als Kontakte oder als Freunde bzw. Follower — aber auch implizitere Vernet- 
zungen, z.B. basierend auf der Beteiligung an den gleichen Gesprächsthemen). 

Davon abhängig, welche Daten untersucht werden sollen, kommen auch verschiedenste 
Methoden für die Datenanalyse in Betracht. Dazu zählen unterschiedlichste Formen der ma- 
nuellen oder automatischen Textanalyse (darunter auch Sentiment Analysis oder Topic Mo- 
deling), sowie Netzwerkanalysen. Vielfach verfügen die Daten über zusätzliche Metadaten, 
insbesondere Zeitstempel und Geoinformationen, die weitere Datenanalysen ermöglichen. 
Einen Überblick über verschiedene methodische Herangehensweisen liefert z.B. das Hand- 
buch The Sage Handbook of Social Media Research Methods von Sloan und Quan-Haase 
(2016). 

Die Auswahl geeigneter Social-Media-Plattformen als Datenquellen für eine bestimmte 
Fragestellung ist der erste Schritt bei der Arbeit mit Social-Media-Daten. Sie steht damit am 
Anfang einer Reihe von grundlegenden Punkten, die interessierte Wissenschaftlerinnen und 
Wissenschaftler berücksichtigen sollten, bevor sie sich für die Arbeit mit Social-Media-Da- 
ten entscheiden. Schaukasten 11.1 fasst einige dieser Punkte in Form von Fragen zusammen. 
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Schaukasten 11.1: Fragen, die vor der Arbeit mit Social-Media-Daten beachtet werden sollten 
Charakteristiken der Social-Media-Plattform 


« Welche Social Media-Plattformen sind für mich relevant? 


- Warum ist eine bestimmte Plattform für meine Fragestellung relevant (z.B. Zielgruppe, Medien- 
format, Inhalte zu bestimmten Themen)? 
° Soll nur eine Plattform betrachtet oder sollen mehrere verglichen werden? 
+ Welche Dimensionen einer Social-Media-Plattform sind für mich interessant? 


« Sollen nur bestimmte Teilbereiche untersucht werden, beispielsweise nur Texte, Videos, Nut- 
zernetzwerke? 


« Sind Nutzungsstatistiken für die jeweilige Plattform verfügbar? 


+ In welcher Form liegen Nutzerzahlen vor (z.B. Anteil der Gesamtbevölkerung oder Online-Be- 
völkerung, Unterscheidung in aktive und passive Nutzende, Angaben für tägliche, wöchentliche 
Nutzung)? 

+ Ist die demographische Zusammensetzung der Nutzer/innen einer Plattform bekannt? 


Datensammlung 


+ Wie können Daten abgerufen werden? 


« Sind Schnittstellen zum Datenabruf bei der Plattform selbst verfügbar (APIs)? 

+ Können bereits bestehende Datensätze weiterverwendet werden? 

° Wird ein Datenzugriff über Drittanbieter angeboten? Wer bietet diesen an, wie vertrauenswürdig 
sind die Anbieter? 

« Ist der Datenzugriff kostenlos? 


« Welche Daten sind erhältlich? 


+ Nach welchen Kriterien können Daten ausgewählt werden (beispielsweise thematisch, nach 
Nutzergruppen, nach Regionen, nach Datum)? Sind die Suchkriterien für meine Forschungs- 
frage geeignet? 

« — In welchem Dateiformat sollen die Daten vorliegen? 

« Ist der Zugriff beschränkt auf ein bestimmtes Datenvolumen? Welche Datenmenge wird benö- 
tigt? 

« Ist. der Zugriff beschränkt auf bestimmte Zeiträume? 

+ Welcher Erhebungszeitraum soll gewählt werden? 


- Sollen über einen bestimmten Zeitraum alle Daten gesammelt oder Stichproben genommen 
werden? 
« Im Falle von Stichproben: Wie sollen diese angesetzt werden? 
« Entstehen Verzerrungen durch die Datenauswahl? 


e Wird durch die Datenauswahl eine bestimmte Nutzergruppe bevorzugt (z.B. Vielnutzer, Nut- 
zer/innen aus bestimmten Regionen)? 

« Kann der Zeitraum der Datensammlung eine Verzerrung hervorrufen (beispielsweise, wenn Fei- 
ertage oder Großereignisse die Nutzungsfrequenz beeinflussen)? 


Forschungsethik 
« Wird die Zustimmung der Nutzer/innen vorausgesetzt? 


e Willigen die Nutzer/innen über die Nutzungsbedingungen der Plattform dazu ein, dass ihre Da- 
ten an Dritte weitergegeben werden? 

« Werden nur öffentlich zugängliche Inhalte verwendet? 

« Kann man davon ausgehen, dass die Nutzer/innen sich der öffentlichen Einsehbarkeit ihrer 
Kommentare und Aktivitäten bewusst sind? 

+ — Ist eine Anonymisierung möglich? 

« Können Nutzer/innen anhand vorhandener Informationen wieder identifiziert werden (etwa durch 
eine Textsuche bei vorliegenden Zitaten aus Tweets)? 

« Handelt es sich um Nutzergruppen, die besonders auf Anonymität angewiesen sind (z.B. politi- 
sche Aktivist/innen, Minderjährige) oder um Nutzergruppen, die eine namentliche Erwähnung 
sogar bevorzugen würden (z.B. Autor/innen, Künstler/innen)? 


Nachnutzbarkeit 
« Sollen die Daten nach der Nutzung Dritten zugänglich gemacht werden? 
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Gibt es rechtliche oder technische Rahmenbedingungen, die Einfluss darauf haben, welche Da- 
ten weitergegeben werden müssen? 

Werden beim Datenkauf Nutzerbedingungen unterschrieben, die eine Weitergabe an Dritte ein- 
schränken oder gar untersagen? 


Quelle: Eigene Darstellung 


Die folgenden Abschnitte dieses Kapitel befassen sich mit diesen Aspekten. Dabei steht der 
Bereich der Datensammlung (Abschnitt 11.2) im Vordergrund. Generell ist zu berücksichti- 
gen, dass die im Schaukasten angesprochenen Faktoren die Qualität der Daten bzw. ihre 
Brauchbarkeit für eine bestimmte Forschungsfrage beeinflussen können. 


11.2 Möglichkeiten und Grenzen der Datensammlung im Social Web 


Je nach Plattform sind Social-Media-Daten unterschiedlich gut für die Sammlung und Nut- 
zung für die Forschung zugänglich. Da es sich bei den Plattformen in der Regel um kommer- 
zielle Dienste handelt, deren Betreiber eigene wirtschaftliche Interessen verfolgen, ist ein 
offener Datenzugang, etwa für wissenschaftliche Zwecke, selten vorgesehen. Eine Aus- 
nahme stellt Wikipedia dar. Routinemäßig werden Kopien, sogenannte Wikipedia Dumps, 
der kompletten aktuellen Version der Community-basierten Online-Enzyklopädie für die 
Nachnutzung zur Verfügung gestellt. 

In einigen anderen Fällen verfügen Social-Media-Plattformen über spezielle Schnittstel- 
len, über die in gewissem Umfang Daten abgerufen werden können. Eine solche Schnitt- 
stelle, genannt Application Programming Interface (API), dient in erster Linie jedoch dazu, 
die jeweilige Plattform für die Verbindung mit anderen Anbietern nutzbar zu machen. So 
kann etwa damit ein auf Instagram hochgeladenes Foto direkt bei Facebook geteilt werden. 
Der Funktionsumfang und die Nutzungsbedingungen sind für eine derartige Nutzung ausge- 
richtet. Dass auch Wissenschaftler/innen die API verwenden, um Daten zu sammeln, ist aus 
Anbietersicht wohl eher ein Nebeneffekt. Man sollte sich deshalb stets dessen bewusst ma- 
chen, dass die auf diesem Wege abrufbaren Daten in keiner Weise speziell für die wissen- 
schaftliche Datenerhebung aufbereitet wurden. Die Qualität der Daten ist, wie wir unten se- 
hen werden, mitunter unsicher. Zudem ist der Zugang oft nur mit entsprechenden technischen 
Vorkenntnissen möglich und das Zugriffsvolumen in der Regel begrenzt. Oft sind die Daten 
in bestimmten Formaten abrufbar, was einerseits eine gute Strukturierung mit sich bringt, 
andererseits aber auch dazu führen kann, dass die Daten unvollständig sind. So fehlen bei- 
spielsweise bei Twitter-Daten im textbasierten JSON-Format die in den ursprünglichen 
Tweets enthaltenen Videos oder Bilder (vgl. Abbildung 11.1). 

Drittanbieter haben früh einen Markt darin gesehen, Tools für das Auslesen von Social- 
Media-APIs zur Verfügung zu stellen, mit denen Interessierte ohne eigene Programmier- 
kenntnisse die Daten auslesen konnten. Insbesondere für Twitter existierten verschiedene 
Angebote, bei denen innerhalb einer Weboberfläche mit wenigen Klicks eine eigene Daten- 
sammlung aufgesetzt und die Daten später z.B. als Excel-Datei heruntergeladen werden 
konnten. In bestimmten Wissenschaftskreisen war beispielsweise die Plattform Twapper- 
Keeper besonders beliebt. Sie ermöglichte es, Tweets zu bestimmten Schlagworten oder 
Hashtags zu sammeln und die Sammlungen wiederum anderen Nutzer/innen zugänglich zu 
machen. Im Jahr 2011 gab es jedoch bei Twitter eine größere Umstellung der APIs und deren 
Nutzungsbedingungen, in deren Folge viele dieser Dienste nicht weiterbetrieben werden 
durften (Bruns 2011). Auch TwapperKeeper musste seinen Service schließen, bot jedoch 
wenig später mit YourTwapperKeeper eine überarbeitete Version an. Diese steht allerdings 
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nicht länger als Webinterface zur Verfügung, sondern muss von den Nutzer/innen auf ihrem 
eigenen Server installiert werden (Bruns/Liang 2012). Dieses Beispiel verdeutlicht, dass die 
verfügbaren Datenzugänge Änderungen unterworfen sind, die von den Plattformbetreibern 
kurzfristig eingeführt werden können. Neben praktischen Konsequenzen für die Datensamm- 
lung können Änderungen beispielsweise der API-Nutzungsbedingungen auch Auswirkungen 
auf die Datenqualität oder die Vergleichbarkeit der Daten über größere Zeiträume hinweg 
haben. 

Für den Zugang zu Twitter-Daten können Interessierte aktuell aus verschiedenen unter- 
stützenden Tools! wählen, die teilweise von Universitäten, wie z.B. COSMOS (Burnap et al. 
2015) oder Social Feed Manager, teilweise kostenpflichtig von Unternehmen angeboten wer- 
den, wie etwa Tweet Archivist oder DiscoverText. Zudem wurden Plugins für etablierte Ana- 
lysesoftware entwickelt, wie etwa NVIVO, die einen direkten Abruf von Twitter-Daten er- 
möglichen. Einen Überblick über die verschiedenen Optionen gibt beispielsweise Littman 
(2017a). Da jedoch alle diese Dienste letztlich auf den Twitter-APls basieren, sind sie insge- 
samt auch den Einschränkungen unterworfen, die Twitter für die APIs allgemein auferlegt 
hat (Gaffney/Puschmann 2014). Twitter bietet den Datenabruf über verschiedene APls an, 
die aber jeweils nur einen Ausschnitt des gesamten Twitter-Volumens zugänglich machen. 
Darüber hinaus ist es beispielsweise nicht möglich, rückwirkend alle Tweets zu einem be- 
stimmten Suchbegriff oder Hashtag abzurufen. Dementsprechend muss man in der Regel im 
Voraus planen, welche Art Daten man abrufen möchte. Das funktioniert relativ gut, wenn 
man Informationen über ein vorab geplantes Ereignis sammeln möchte, etwa für eine Wahl. 

Bei spontanen Ereignissen, wie etwa Protestbewegungen oder Naturkatastrophen, stellt 
sich die voraus geplante Datensammlung jedoch weit schwieriger dar. Wenn man heute bei- 
spielsweise rückwirkend alle Tweets der Occupy-Wallstreet-Proteste basierend auf den zu- 
gehörigen Hashtags abrufen will, helfen die frei zugänglichen Twitter-APIs nicht weiter. Den 
Vollzugriff auf die gesamte Datenbasis und auf sogenannten historischen Tweets (darunter 
versteht Twitter alle Tweets, die rückwirkend erfasst werden sollen) vermarktet Twitter kos- 
tenpflichtig. Das Preismodell liegt auf einem Level, das den Einkauf für Wissenschaftler/in- 
nen nicht immer spontan erschwinglich macht. Die Preise sind von verschiedenen Faktoren 
in Zusammenhang mit der Suchanfrage und dem Tweet-Volumen abhängig, ein aktueller 
Beispielwert wäre etwas unter 2.000 Dollar für rund 1,5 Millionen Tweets. Für den Vertrags- 
abschluss brauchen Forscher/innen zudem in der Regel die Unterschrift der Instituts-/Uni- 
versitätsleitung. Zunehmend findet man Beispiele von Forscher/innen, die sich einen solchen 
Datenankauf für ihre Forschungsarbeiten ermöglicht haben. Eine Anlaufstelle für den Ein- 
kauf verschiedener Social-Media-Inhalte ist beispielsweise DataSift.. 

Sowohl die APIs und darauf basierende Tools als auch die kostenpflichtigen Angebote 
liefern in erster Linie textbasierte Daten in standardisierten Formaten, wie etwa das textba- 
sierte JSON-Format für Twitter-Daten. Abbildung 11.1 zeigt als Beispiel den ersten Tweet 
des Twitter-Mitgriinders Jack Dorsey im JSON-Format. Das Format besteht aus fixen Meta- 
datenelementen und enthält so beispielsweise Angaben zum Veröffentlichungszeitpunkt 
(created_at: Tue Mar 21 20:50:14 +0000 2006), zur Sprache (lang: En) oder zum Autor? 
(name: Jack Dorsey) bzw. zum Nutzernamen bei Twitter (screen_name: Jack). Alle Angaben 
sind nach einem vorgegebenen Muster strukturiert verfügbar, jedoch rein textbasiert. Möchte 
man über den Standard hinausgehen und beispielsweise bei Twitter eingebettete Fotos oder 


1 Manche der im Folgenden genannten Tools ermöglichen auch den Zugriff auf andere Social-Media-Daten und 
sind nicht auf Twitter beschränkt. 

2 Die Angaben zur Autorin/zum Autor eines Tweets beziehen sich jeweils auf die verfügbare Angabe im Nut- 
zerprofil. Nutzerinnen und Nutzer müssen hier jedoch keinen echten oder vollständigen Namen angeben. 


11. Big Data & New Data 199 


Videos ebenfalls auswerten, so muss man in der Regel eigene Tools bauen, die speziell auf 
diese Arten von Inhalten ausgerichtet sind. 


Abbildung 11.1: Beispiel fur einen Tweet im JSON-Format 


Quelle: Der erste Tweet des Twitter-Mitgründers Jack Dorsey (@jack) aus dem Jahr 2006. Der Originaltweet ist verfüg- 
bar unter: https://twitter.com/jack/status/20. 


Neben den kommerziellen Interessen der Anbieter spielen schließlich auch die Privatsphäre- 
Einstellungen der Social-Media-Nutzer/in eine entscheidende Rolle dabei, welche Arten von 
Daten für die (wissenschaftliche) Nutzung frei abrufbar sind. So sind Twitter-Daten sicher 
auch deswegen verhältnismäßig beliebt als Forschungsgrundlage, weil der überwiegende 
Großteil der Twitter-Inhalte öffentlich zugänglich ist. Als Twitter-Nutzer/in hat man 
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lediglich die Wahl zwischen zwei Privatsphäre-Einstellungen: Das komplette Profil und alle 
Tweets sind entweder komplett öffentlich — und über die oben genannten Datenzugänge 
kommt man bei Twitter immer nur an den öffentlichen Teil der Daten — oder komplett privat 
und damit nur für einzeln zugelassene Nutzer/innen einsehbar (Zimmer/Proferes 2014a). 

Bei Facebook beispielsweise ist die Lage deutlich komplexer. Ursprünglich regelte die 
dortige Standardeinstellung, dass Beiträge nur für Freunde — ggf. auch noch für deren 
Freunde — sichtbar waren. Inzwischen können Nutzer/innen für jeden einzelnen Beitrag eine 
andere Sichtbarkeit einstellen, z.B. nur für bestimmte Freunde, alle Freunde oder komplett 
öffentlich. Dadurch sind einerseits anteilig weniger Daten aus Facebook öffentlich einsehbar 
als Daten aus Twitter. Andererseits stellt sich bei einigen öffentlichen Kommentaren auf Fa- 
cebook die Frage, ob sich Nutzende in diesem Fall der Öffentlichkeit ihrer Aussagen über- 
haupt bewusst waren oder ob sie sich selbst noch im geschützten Bereich wähnten. Ein Bei- 
spiel für einen solchen Fall von öffentlich einsehbaren Nutzungsaktivitäten findet man im 
Kommentarbereich von Angela Merkels Facebook-Seite. Die Kommentare sind ohne Face- 
book-Login für jeden öffentlich einsehbar, doch es ist unklar, ob das den Kommentierenden 
bewusst ist. 

Der Umgang mit solchen und ähnlichen Social-Media-Inhalten fällt bislang noch in einen 
großen Graubereich: Sowohl der rechtliche Rahmen als auch Fragen der Forschungsethik 
sind meist nicht vollständig geklärt. Interviews mit Social-Media-Forscher/innen zeigen, 
dass zwar ein Bewusstsein für die Bedeutung von Forschungsethik in diesem Bereich vor- 
handen ist, dass aber in der Forschungsgemeinschaft bisher keine Einigkeit darüber besteht, 
wie genau der ethisch verantwortungsbewusste Umgang mit verschiedenen Datentypen aus- 
sieht (Weller/Kinder-Kurlanda 2014: 1). Selbst bei den öffentlich vorliegenden Twitter-Da- 
ten gehen hierzu die Meinungen auseinander. Und die bisher verfügbaren Richtlinien ver- 
schiedener Fachgemeinschafen bieten vorwiegend allgemeine Denkanstöße, aber keine de- 
taillierten Anweisungen für konkrete Einzelfälle. Als Beispiel seien hier vor allem die Gui- 
delines der Association of Internet Researchers (AoIR) genannt (Markham/Buchanan 2012). 
Einen relativ breiten Überblick über aktuelle Herausforderungen im Bereich Forschungsethik 
bei Internetdaten und Beispielszenarien liefern Zimmer und Kinder-Kurlanda (2017). 

In Bezug auf den ethisch-bewussten Umgang mit Forschungsdaten aus Social-Media- 
Umgebungen ist langfristig die Etablierung von Standards im Sinne guter wissenschaftlicher 
Praxis notwendig. Hierbei können und sollten Datenarchive künftig eine führende Rolle 
übernehmen, da sie über langjährige Erfahrungen beim Management unterschiedlichster Da- 
tentypen und der Entwicklung entsprechender Standards verfügen. Archivierte Datensätze, 
die bereits auf Einhaltung ethischer Standards geprüft wurden, könnten dann wiederum für 
andere Forschende zugänglich gemacht werden, die somit nicht ihrerseits von vorne mit dies- 
bezüglichen Überlegungen beginnen müssten. 

Allgemein wären Fortschritte im Bereich der Datenarchivierung von Social-Media-Daten 
äußerst wünschenswert (Weller/Kinder-Kurlanda 2016). Sie könnten dabei helfen, den Da- 
tenzugang insgesamt zu erleichtern und damit ggf. auch aktuelle Ungleichgewichtungen re- 
lativieren zwischen den Wissenschaftler/innen, die sich kostenpflichtige Vollzugriffe auf Da- 
ten leisten können oder durch persönliche Kontakte zu Social-Media-Firmen über privile- 
gierte Zugriffsmöglichkeiten verfügen und der breiteren Masse der an Social-Media-Daten 
für ihre Forschung Interessierten. Solche Ungleichheiten werden seit einiger Zeit in der 
Social-Media- und Big-Data-Forschung kritisiert (Boyd/Crawford 2012: 673ff). 

Der Zugang zu Social-Media-Daten erfordert oftmals einen hohen Aufwand für die Ein- 
arbeitung in die Umsetzung der Datensammlung, zumal sich die Rahmenbedingungen für die 
Zugänglichkeit bei einzelnen Plattformen rasch ändern können. Für besonders relevante The- 
men ist davon auszugehen, dass verschiedene Forschergruppen parallel Zeit und Aufwand in 
die Erstellung relativ ähnlicher Datensätze stecken. So gibt es beispielsweise mindestens 17 


11. Big Data & New Data 201 


verschiedene Datensätze basierend auf Twitter-Daten rund um die Präsidentschaftswahl in 
den USA in 2012 (Weller 2014: 246). Hier könnten zentral archivierte Datensätze in Zukunft 
idealerweise einen vermeidbaren Mehraufwand reduzieren. Unter Umständen können Archi- 
vierungslösungen zudem langfristig dazu beitragen, die Qualität von Social-Media-Datens- 
ätzen zu verbessern, insbesondere bezogen auf Transparenz und Reproduzierbarkeit der da- 
mit durchgeführten Studien. 


11.3 Datenqualität von Social Media Daten 


Social-Media-Daten üben also für mehr und mehr Forscher/innen als neue Datentypen einen 
gewissen Reiz aus: Sie sind schnell verfügbar, bilden potentiell das Verhalten von Nutzenden 
auf der ganzen Welt ab, und liegen meist in strukturierter Form vor. Wie wir gesehen haben, 
ist jedoch bereits der Datenzugriff beschränkt und nicht auf eine wissenschaftliche Nutzung 
ausgerichtet. Auch die Datenqualität entspricht nicht unbedingt wissenschaftlichen Erwar- 
tungen. Eine Herausforderung für die Datenqualität ist es, ihre Repräsentativität sinnvoll ein- 
zuschätzen bzw. etwaige Verzerrungen (Biases) zu erkennen. Denn wie auch Lazer et al. 
(2014: 1203) warnen: „The core challenge is that most big data that have received popular 
attention are not the output of instruments designed to produce valid and reliable data ame- 
nable for scientific analysis.“ 

Der Datenzugriff und die bereits erwähnten etwaigen Beschränkungen der Plattformbe- 
treiber sind eine Stelle, an der es zu Verzerrungen kommen kann. Morstatter et al. (2013) 
sowie Morstatter, Pfeffer und Liu (2014) untersuchen beispielsweise, wie sich der über die 
APIs frei verfügbare Auszug aus Twitter zu dem kostenpflichtigen Vollzugriff verhält und 
weisen auf diese Weise u.a. Verzerrungen in Bezug auf die thematische Abdeckung nach. 

Weitere Verzerrungen können in Bezug auf die Bevölkerungsrepräsentation entstehen. In 
den seltensten Fällen ist davon auszugehen, dass Social-Media-Daten für bestimmte Bevöl- 
kerungsgruppen repräsentativ sind. Umso wichtiger ist es, einzuschätzen, wie sich die Nut- 
zerschaft einer bestimmten Social-Media-Plattform zusammensetzt. Im ersten Schritt ist her- 
auszufinden, welcher Anteil der Bevölkerung eine Plattform in welchem Umfang nutzt.? Auf 
dieser Basis kann die gesellschaftliche Rolle einer Plattform eingeordnet werden. So ist Fa- 
cebook zwar in einigen Ländern höchst populär, wird in anderen dafür kaum genutzt — und 
ist für Studien zur dortigen Bevölkerung somit als Forschungsdatenquelle weit weniger ge- 
eignet. Nichtnutzung bestimmter Plattformen kann z.B. an Zugriffsbeschränkungen und Zen- 
suren liegen, etwa in China. Es kann aber auch sein, dass andere Plattformen, wie der Face- 
book-Konkurrent Vkontakte in Russland, populärer sind. Nicht immer ist es möglich, genau- 
ere Informationen zur Nutzung nach demographischen Merkmalen zu erhalten. Am ehesten 
sind Angaben zu dem Alter des Anteils der Bevölkerung, die einen Dienst nutzt, erfassbar. 
Wünschenswert wären mitunter auch Angaben zu Geschlecht, Einkommen oder Bildungs- 
stand. Blank (2017: 680ff) gibt einen guten Überblick über Versuche, die Zusammensetzung 
der Gruppe der Twitter-Nutzer/innen automatisch zu entschlüsseln. So sollen z.B. anhand 
von Vornamen, Ortsangaben oder Fotos das Geschlecht, Alter oder Herkunft von Twitter- 
Nutzenden ermittelt werden. Blank (ebd.: 681) weist zudem darauf hin, dass es nicht reicht, 
die Zusammensetzung der Nutzerschaft einer Plattform zu kennen. Relevant ist im Weiteren 
die Kenntnis darüber, inwiefern diese sich von den Nutzenden anderer Plattformen, der 


3 In Deutschland nutzen in 2017 nach Angaben von Koch und Frees (2017) beispielsweise 3 % der Bevölkerung 
Twitter und 33 % Facebook mindestens einmal wöchentlich. 
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Online-Bevölkerung oder der Offline-Bevölkerung unterscheidet. Mit Hilfe von Umfragen 
vergleicht er US-amerikanische und britische Twitter-Nutzer/innen mit anderen Gruppen, 
etwa den Nicht-Twitter-Nutzer/innen und der Offline-Bevölkerung. Er zeigt u.a., dass briti- 
sche Twitter-Nutzer/innen jünger, wohlhabender und besser ausgebildet sind als andere In- 
ternetnutzer (ebd.: 683ff). Solche Unterschiede sind insbesondere relevant, wenn man Social- 
Media-Daten für Prognosen (z.B. von Wahlergebnissen oder Kinoerfolgen) nutzen möchte. 
Blank und Lutz (2017) betrachten verschiedene Social-Media-Plattformen in Bezug auf Re- 
präsentativität für Nutzergruppen. Darüber hinaus werden aktuell erste Versuche mit speziell 
in Panels rekrutierten Nutzer/innen für die Erfassung der Social-Media-Nutzung erprobt 
(Resnick/Adar/Lampe 2015). 

Bruns und Stieglitz (2014: 241ff) weisen zudem darauf hin, dass die Repräsentativität 
von Social-Media-Daten an mehreren Stellen kritisch werden kann. Wie gut die Gesamtbe- 
völkerung unter den Plattformnutzenden repräsentiert ist, ist nur der Anfang. Man muss auch 
fragen, inwieweit ein bestimmter aus einer Plattform extrahierter Datensatz für diese Platt- 
form repräsentativ ist. Twitter-Daten werden beispielsweise häufig basierend auf Hashtags 
zusammengestellt (z.B. alle Tweets mit dem Hashtag #btw/7 für einen Datensatz zur Bun- 
destagswahl 2017). Hashtags werden allerdings nicht von allen Twitter-Nutzer/innen gleich- 
ermaßen verwendet. Bei der Datensammlung basierend auf Hashtags ist davon auszugehen, 
dass insbesondere die Aktivitäten von erfahrenen Twitter-Nutzer/innen gemessen werden, 
weniger die von Twitter-Neulingen oder gelegentlich Nutzenden (ebd.: 241). Eine weitere 
Herausforderung ist die Verwendung verschiedener Hashtags für das gleiche Thema, bei der 
Bundestagswahl 2017 z.B. #brw17 oder #bundestagswahl. Bei Hashtags handelt es sich nicht 
um kontrolliertes Vokabular, sie können frei gewählt werden. In manchen Fällen verwenden 
bestimmte Nutzergruppen gezielt eher das eine, andere Nutzergruppen ein anderes Hashtag, 
teils versehentlich, etwa wegen verschiedener Muttersprachen, teils um unter sich zu bleiben 
und sich abzugrenzen. Beschränkt man in solchen Fällen die Datensammlung auf eines der 
beiden Hashtags, beeinflusst dies die betrachtete Nutzergruppe. Auch Geoinformationen, die 
an Tweets angehängt werden können, sind als Kriterium für die Datensammlung problema- 
tisch, da nur ein sehr geringer Teil der Twitter-Nutzenden diese Geocodes verwendet 
(Sloan/Morgan 2015: 2). Ruths und Pfeffer (2014) sehen ein weiteres Repräsentativitätsprob- 
lem darin, dass die Aktionen innerhalb von Social-Media-Plattformen nicht unbedingt mit 
den scheinbar repräsentierten Offline-Aktivitäten übereinstimmen. So ist ein Freund auf Fa- 
cebook nicht unbedingt ein Freund im Offline-Leben. Für Forscherende liegt also die Her- 
ausforderung auch darin, herauszufinden, welche Aktionen innerhalb einer Plattform dem 
entsprechen könnten, was sie mit Hilfe der Social-Media-Daten messen wollen. Als eine 
weitere Schwierigkeit kommt für die Forschung hinzu, dass sich sowohl die Social-Media- 
Plattformen (Karpf 2012: 643f) als auch die Nutzungspraktiken rasant weiterentwickeln. 

Aussagen zur Qualität von Social-Media-Daten werden zudem dadurch erschwert, dass 
die in aktuellen Forschungsarbeiten verwendeten Daten nur in Ausnahmefällen für die Nach- 
nutzung verfügbar gemacht werden. So ist es oft nicht möglich, Forschungsergebnisse zu 
replizieren oder zu überprüfen, wie in Kapitel 7.1 diskutiert. Dieser Zustand ist möglicher- 
weise ein Ausdruck dessen, dass sich zur Erforschung von Social Media bisher keine spezi- 
alisierte Fachdisziplin etabliert hat und vielmehr in verschiedensten Disziplinen mit Ansät- 
zen und Methoden experimentiert wird. So steht derzeit noch die Exploration von Daten zu 
einem bestimmten Thema im Vordergrund. Langfristig wird die Social-Media-Forschung 
hier jedoch eigene Kriterien zur Qualitätsbewertung von Datensammlung und Datendoku- 
mentation und einheitliche Standards entwickeln müssen, um den wissenschaftlichen Er- 
kenntnisgewinn voranzubringen. Ein Wandel in diese Richtung deutet sich bereits an; es 
werden zunehmend Qualitätsprobleme kritisiert (z.B. Lazer/Radford 2017; Resnick/Adar/ 
Lampe 2015; Schroeder 2014; Tufekci 2014). 
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Fehlende Reproduzierbarkeit der in der Social-Media-Forschung erzielten Ergebnisse 
kann sich langfristig auf das gesamte Forschungsfeld sehr negativ auswirken. Erste Fachzeit- 
schriften und Konferenzveranstalter suchen deswegen nach Möglichkeiten, die zugrunde lie- 
genden Datensätze gemeinsam mit den angenommenen wissenschaftlichen Veröffentlichun- 
gen bereitzustellen. Auf der International Conference on Web and Social Media (ICWSM) 
wird den Autor/innen der angenommenen Beiträge beispielsweise angeboten, Ihre Datens- 
ätze gleich mit zu publizieren (ICWSM 2012). 

Hinzu kommt bei dieser Konferenzreihe seit Kurzem auch eine neue Kategorie an Bei- 
trägen, sogenannte Dataset Papers, die sich allein der Publikation eines Datensatzes mit da- 
zugehörender detaillierter Beschreibung desselben widmen (vgl. 7.3.2). Der Bedarf, Daten 
zu teilen und zu archivieren, ist also vorhanden, was auch Interviews mit Social-Media-For- 
scher/innen bestätigen (Weller/Kinder-Kurlanda 2015: 31f). Schwierig wird es jedoch im 
Detail in der Umsetzung, da sich traditionelle Modelle der Datenarchivierung nicht immer 
eins zu eins übertragen lassen. 


11.4 Archivierung und Nachnutzung von Social-Media-Daten 


Bisher gehen Ansätze zur Archivierung von Social-Media-Daten von ganz unterschiedlichen 
Gruppen aus. Verlage und Konferenzveranstalter sind, wie wir eben gesehen haben, eine 
solche Interessensgruppe. Daneben finden wir auch verschiedene Eigeninitiativen einzelner 
Wissenschaftler/innen oder Arbeitsgruppen. Vieles davon ist improvisiert und geschieht mit 
wenig Bezug zu etablierten Praktiken aus dem Bereich Forschungsdatenmanagement. Initi- 
ativen von auf Archivierung spezialisierten Expert/innen und Einrichtungen sind bislang eher 
die Ausnahme. Einen Überblick über bestehende Ansätze liefern Thomson (2016) sowie 
Weller und Kinder-Kurlanda (2016). Einzelne Beispiele sollen im Folgenden kurz skizziert 
werden: 


Neben der ICWSM veröffentlichen auch andere Konferenzreihen Datensätze — mitunter geknüpft an 
sogenannte Data Challenges. Dabei wird ein Datensatz vor der Konferenz zur Verfügung gestellt und 
mit einer Aufgabe verbunden, wie z.B. bestimmte Informationen daraus zu extrahieren. Die Wissen- 
schaftler/innen, die sich dieser Aufgabe stellen, können sich anschließend bei der Konferenz über 
ihre Ansätze austauschen. Ein Beispiel hierfür ist die Text Retrieval Conference (TREC), die mehr- 
fach Twitter-Datensätze für Aufgaben zum Information Retrieval* bereitgestellt hat (TREC 2011). 
Einzelne Wissenschaftler/innen teilen Datensätze z.T. über ihre eigenen oder institutionellen Webs- 
ites. Dies hat jedoch auch schon zu Fällen geführt, in denen der Datensatz im Laufe der Zeit nicht 
mehr über die Website verfügbar war. So geschehen im Falle von Cha et al. (2010), wo der zum 
Paper gehörende Datensatz auf Anweisung von Twitter wieder von der Webseite des Max Planck 
Institute for Software Systems entfernt werden musste. 

Andere Wissenschaftler/innen haben ihre Datensätze auch bereits über Archivierungsinstitutionen 
bereitgestellt, beispielsweise Summers (2014) über das Internet Archive oder Kaczmirek und Mayr 
(2015) über das GESIS Datenarchiv. In beiden Fällen handelt es sich um Twitter-Daten. Unter Be- 
rücksichtigung der Twitter-Nutzungsbedingungen werden dabei keine Texte oder JSON-Dateien, 
sondern Listen von Tweet-Identifikationsnummern (Tweet-IDs) archiviert und geteilt. Basierend auf 
den Tweet-IDs kann dann jeweils der Originaltweet wieder aufgerufen werden, sofern dieser nicht 
zwischenzeitlich gelöscht wurde. Bei GESIS liegen weitere Twitter-Datensätze in Form von Listen 


4 Im Rahmen der Konferenz werden Aufgaben gestellt, mit Information Retrieval Algorithmen bestimmte In- 
formationen aus Twitter-Texten zu identifizieren, z.B. alle Eigennamen finden oder Ereignisse identifizieren. 
Die Konferenzveranstalter stellen einen Twitter-Datensatz als Bezugsrahmen zur Verfügung. Forscher/innen 
wenden ihre Retrieval-Verfahren auf diesen Datensatz an und reichen die damit erzielten Ergebnisse zum Ver- 
gleich bei den Veranstaltern ein. 
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von Tweet-IDs vor, die mit zusätzlichen Informationen wie Geocodierungen (Kinder-Kurlanda et al. 
2017; Pfeffer/Morstatter 2016) oder Kategorisierungen (Nishioka/Scherp/Dellschaft 2015) angerei- 
chert wurden. 

Teilweise bauen Forschungsgruppen oder Forschungsinstitute ganze Sammlungen von Datensätzen 
auf. Beispiele hierfür sind das Projekt KONECT an der Universität Koblenz-Landau, das an Datens- 
ätzen speziell vom Typ Netzwerkdaten interessiert ist, oder das CrisisLex Projekt (Olteanu et al. 
2014), das thematisch auf Krisenkommunikation bezogene Datensätze sammelt. 

Eine ganz besondere Situation gibt es zudem im Fall Twitter. Das Unternehmen Twitter Inc. hat 
selbst eine Initiative zur Archivierung seiner Inhalte in die Wege geleitet und bereits 2010 ein dies- 
bezügliches Abkommen mit der Library of Congress in den USA getroffen (Stone 2010). Bis heute 
hat dieses Abkommen jedoch nicht zu einer praktischen Lösung geführt — ein Zugriff auf die bei der 
Library of Congress archivierten Twitter-Daten ist bislang nicht möglich und wenig Offizielles ist 
über den Stand der Entwicklungen bekannt (McLemee 2015; Zimmer 2015). Ende 2017 wurde zu- 
dem verkündet, dass statt der ursprünglich geplanten Vollarchivierung aller Tweets von nun an nur 
noch zu besonderen Themen Datensammlungen archiviert werden sollen (Osterberg 2017). 


Darüber hinaus ist davon auszugehen, dass Datensätze oftmals sehr informell zwischen ein- 
zelnen Wissenschaftler/innen weitergegeben werden — über persönliche Kontakte und auf 
Anfrage in einer Art grey market (Weller/Kinder-Kurlanda 2015: 33). Mitunter gibt es auch 
Fälle, in denen große Datensätze zu Social-Media-Plattformen von Einzelpersonen im Inter- 
net zur Verfügung gestellt werden, ohne dass die Initiatoren und rechtlichen Status der Daten 
konkret bekannt sind. So gibt es beispielsweise einen reddit-Datensatz, der von reddit-Nutzer 
Jason Baumgartner veröffentlicht wurde (stuck_in_the_matrix 2015a und 2015b). Der Da- 
tensatz wurde kürzlich von Wissenschaftlern als unvollständig kritisiert (Gaffney/Matias 
2018) und wird seitdem von verschiedenen Beteiligten inklusive Jason Baumgartner ergänzt 
und verbessert. 

Bislang liegen wenige Informationen vor, in welchem Umfang die bereits zur Verfügung 
gestellten Datensätze auch von Dritten nachgenutzt werden. Als Zimmer und Proferes 
(2014b) eine Sammlung von Studien, die auf Twitter-Daten basieren, bezüglich ihrer Metho- 
den und Herangehensweisen klassifizierten, verzeichneten sie zwischen 2010 und 2012 in 3— 
8 % der Fälle eine Nachnutzung bereits vorhandener Datensätze. In Interviews gaben manche 
Social-Media-Forscher/innen an, dass sie die von anderen zusammengestellten Daten lieber 
nicht nutzen würden, da sie dabei nicht nachvollziehen können, wie die Datensätze zustande 
gekommen sind (Weller/Kinder-Kurlanda 2015: 33f). Wenngleich sich diese Aussage sicher 
vorwiegend auf informell zwischen Kolleg/innen weitergereichte Datensätze bezieht, so ist 
es doch ganz allgemein um die Dokumentation der archivierten Daten noch spärlich bestellt. 
In den oben skizzierten Fällen wird auch im Bereich Datendokumentation vielfach improvi- 
siert. Mitunter ist weder klar, wie die Archivierung eines bestimmten Datensatzes abgelaufen 
ist, noch bekannt, wie der Datensatz selbst generiert wurde. Und auch in Fällen, bei denen 
professionelle Archive beteiligt sind, existieren oft zunächst Behelfslösungen: Dokumenta- 
tionsstandards, wie in Kapitel 9 beschrieben, sind auf Social-Media-Daten als neuen Daten- 
typ noch nicht eingestellt. Ähnliches gilt für andere neue Datentypen, wie die in Kapitel 12.4 
beleuchteten georeferenzierten Daten. Auch im Bereich der Forschungsethik gibt es noch 
viele offene Fragen. Langfristig ist zu hoffen, dass Archive eine erweiterte Expertise in Be- 
zug auf Datennutzungsrechte und Datenschutz aufbauen können, von der alle profitieren 
würden. Das Inter-University Consortium for Political and Social Research (ICPSR) kün- 
digte diesbezüglich jüngst den Aufbau eines eigenen Social-Media-Datenarchivs an (Hemp- 
hill/Leonard/Hedstrom 2018). 

Problematisch ist für eine professionelle Archivierung auch, dass die Verschiedenheit von 
Social-Media-Daten einheitliche Regelungen erschwert. Aus Social-Media-Diensten erho- 
bene Daten können je nach Forschungsfrage und Datensammlungsansatz für qualitative oder 
quantitative Forschung genutzt werden. Es können Texte, Bilder oder Multimediadateien, 


11. Big Data & New Data 205 


Netzwerkdaten oder Mischungen aus all diesen vorliegen. Daher ist auch nicht unbedingt 
vorgegeben, welche Art Datenarchiv sich für diese Daten zuständig fühlen könnte und wel- 
che Best Practices auf den Umgang mit Social-Media-Daten übernommen werden sollten. 

Dennoch lassen sich erste Ratschläge geben, worauf Forschende im Umgang mit Social- 
Media-Daten für eine potentielle Dokumentation und Archivierung achten sollten. Beispiels- 
weise wird zunehmend zusätzlich zu den eigentlichen Daten der Programmiercode, mit dem 
die Datensammlung und -bereinigung durchgeführt wurde, gesichert oder geteilt. Dies trägt 
zur besseren Nachvollziehbarkeit der Datenzusammensetzung bei. Zu weiteren entsprechen- 
den Maßnahmen zählen genaue Angaben zum Zeitraum der Datensammlung. Dieser sollte 
präzise dokumentiert werden, wozu strenggenommen auch Angaben zu etwaigen Serveraus- 
fällen und Datenverlusten gehören. Wünschenswert wäre außerdem, wenn die aktuellen In- 
formationen zur Social-Media-Plattform selbst festgehalten werden, beispielsweise in Form 
von Angaben zu Versionen (falls verfügbar) oder zu Nutzerzahlen und zur Nutzerzusammen- 
setzung zum Zeitpunkt der Datenerhebung. In der Praxis ist dies nicht immer einfach. Zu- 
sätzlich empfiehlt es sich für Forschende, Screenshots der Nutzeroberfläche einer Social- 
Media-Plattform zum Zeitpunkt der Datensammlung anzufertigen, da sich diese stetig wei- 
terentwickelt und verändert (Bruns/Weller 2016: 186f). Hiermit ist später zumindest für den 
Eigengebrauch leichter nachzuvollziehen, über welche Funktionen die Plattform zum jewei- 
ligen Zeitpunkt verfügte. Eine Zusammenstellung von Fragen, welche die Dokumentation 
der eigenen Social Media-Datensammlung im Forschungskontext vorbereiten kann, findet 
sich in Schaukasten 11.2 (vgl. dazu auch die Schaukästen zur Planung des Forschungsdaten- 
managements in Kapitel 3). Ein Beispiel für eine durchgeführte Datensammlung bei Twitter 
und deren anschließende Archivierung liefern Kinder-Kurlanda et al. (2017). 


Schaukasten 11.2: Leitfragen zur Vorbereitung einer Dokumentation der Social-Media-Datensammlung 


. Eigenschaften der Plattform, auf der Daten gesammelt wurden, und ihrer Nutzenden: 


« Aus welchen Social-Media-Plattformen wurden Daten gesammelt? 

«  Bezieht sich die Datensammlung auf eine identifizierbare Version? Ggf. können mit Hilfe von Screens- 
hots das Aussehen und die Funktionalitäten der Plattform zum Erhebungszeitpunkt festgehalten wer- 
den. 

« Gibt es Informationen zur Nutzerschaft der Plattform(en) zum Erhebungszeitpunkt (z.B. Anzahl der 
Nutzenden und weitere demographische Informationen)? 

« Sind Datenschutzaspekte und Urheberrechte bei der Datenverarbeitung zu berücksichtigen? 


« Beschreibung der erfassten Daten, deren Speicherung und Aufbereitung: 


. Welche Art Daten wurden gesammelt (z.B. Text, Multimedia, Personen, Netzwerke)? 

e In welchem Zeitraum fand die Datensammlung statt? 

e Gibt es Lücken im Zeitraum der Datensammlung (z.B. durch Serverausfälle oder durch Beschränkun- 
gen des Datenzugriffs durch API)? 

e Nach welchen Kriterien wurden Daten gesammelt (z.B. Zufallsstichprobe, Suchkriterien wie Stichworte 
im Text, nach bestimmten Personen etc.)? Ggf. kann eine Abfragesyntax gespeichert werden. 

e Welche Merkmale der gesammelten Daten werden dokumentiert, um sie zu analysieren? 

« Erfolgt die Dokumentation der Daten nach einem strukturierten Schema? 

e Mit welchen Hilfsmitteln wurden die Daten gesammelt? Im Falle von eigens programmierten Tools und 
Abfragen: Kann hierzu ggf. ein eigener Programmiercode bereitgestellt werden? Im Falle von Drittan- 
bieter-Diensten: Welche Version wurde verwendet, kann diese eindeutig referenziert werden? 

« Wo und wie werden die gesammelten Daten gespeichert (Ort, Dateiformat, -namen)? 

e Wie werden die Originaldaten vor Verlust oder Veränderung im Projekt geschützt? 

e Nach welchen Konventionen werden Arbeitskopien für die Bearbeitung erstellt und gespeichert? 

e Wurden die gesammelten Daten bereinigt (z.B. Dublettenentfernung, Stoppwortentfernung)? Wurden 
Maßnahmen, Kriterien und Regeln der Bereinigung dokumentiert? Kann hierzu ggf. ein eigener Pro- 
grammiercode bereitgestellt werden? 

e Wurden die Daten mit zusätzlichen Informationen angereichert (z.B. manuelle oder automatische in- 
haltliche Codierung, Geo-Informationen)? 


Quelle: Eigene Darstellung 
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11.5 Datenverfall 


Trotz erster Bemühungen im Bereich der Archivierung von Social-Media-Datensätzen dro- 
hen weitere ernstzunehmende Einbußen der Datenqualität durch die Flüchtigkeit des For- 
schungsgegenstands. Social-Media-Plattformen sind ständigen Dynamiken unterworfen, was 
nicht selten dazu führt, dass eine Plattform sich vom Zeitpunkt der Datensammlung bis zur 
Publikation der Forschungsergebnisse ganz wesentlich verändern kann, wie es Karpf (2012: 
642ff) am Beispiel von Blogs näher beschreibt. Social-Media-Daten sind zudem in hohem 
Maße von Datenverfall bedroht, und das gleich auf verschiedene Weise. 

Innerhalb der Social-Media-Plattformen können Nutzer/innen Informationen erstellen, 
z.B. Textbeiträge verfassen, Fotos hochladen, Profilseiten gestalten etc. Sie können Inhalte 
aber auch verändern oder ganz löschen. So können einzelne Posts bei Twitter oder Facebook 
gelöscht, Freundschaftsverbindungen gekappt oder Nutzerkonten vollständig gelöscht wer- 
den. Dies kann innerhalb des Zeitraums der Datensammlung passieren, aber auch zu einem 
späteren Zeitpunkt. 

Wie wir eben gesehen haben, dürfen bei archivierten Twitter-Datensätzen nur die Tweet- 
IDs geteilt werden. Wer den Datensatz nachnutzen möchte, muss basierend auf den IDs die 
eigentlichen Tweets noch einmal von Twitter abrufen, ein als (re-)hydration bezeichneter 
Vorgang (Summers 2015). Wurden einzelne Tweets allerdings zwischenzeitlich von ihren 
Autor/innen oder von Twitter selbst gelöscht, so sind diese auch nicht mehr abrufbar. Von 
Twitter ist dies durchaus so gewünscht, da es den Nutzenden mehr Selbstbestimmung und 
Kontrolle über ihre Daten einräumt. Für Forschungskontexte entsteht damit aber ein Di- 
lemma. Bereits kurze Zeit nach der Datensammlung kann es sein, dass ein signifikanter An- 
teil der Tweets nicht mehr verfügbar ist. Ein archivierter Twitter-Datensatz lässt sich somit 
wahrscheinlich anhand der Tweet-IDs nicht wieder komplett rekonstruieren. 

Bisher gibt es wenig belastbare Informationen, die das genaue Ausmaß dieses Problems 
beziffern können. Summers (2015) versuchte sich an einem Testlauf und konnte eineinhalb 
Monate nach der Datensammlung zwischen sieben und zehn Prozent eines großen Twitter- 
Datensatzes nicht mehr abrufen, da diese zwischenzeitlich gelöscht worden waren. 

Wenn nicht die Tweets, sondern die Useraccounts gelöscht werden, entstehen ebenfalls 
Probleme. Dadurch ist manchmal nachträglich nicht mehr nachvollziehbar, von wem ein 
konkreter Tweet stammt. Nutzer/innen können aber auch zwischen dem Zeitpunkt einer ur- 
sprünglichen Datensammlung und dem Zeitpunkt der Datennachnutzung ihre Profilinforma- 
tionen geändert haben, wodurch Daten u.U. nicht mehr vergleichbar sind. Bei Twitter kann 
zudem ein Nutzername (in der Form @username) nach der Löschung eines Useraccounts 
von anderen Nutzenden übernommen werden. Wenn man daher mit den reinen Nutzernamen 
und nicht mit Nutzer-IDs arbeitet, kann dies zu enormen Verwirrungen führen (Littman 
2017b). 

Schließlich ist ein großes Problem, dass derzeit nicht dokumentiert wird, wie sich die 
Social-Media-Plattformen selbst weiterentwickeln. Man weiß daher nicht, wie Twitter oder 
Facebook zum Zeitpunkt, als ein bestimmter (archivierter) Datensatz entstanden ist, genau 
aussahen, welche Funktionen den Nutzenden zur Verfügung standen und wie diese genutzt 
wurden. Hier sind in erster Linie professionelle Gedächtnisinstitutionen gefragt, die die all- 
gemeine Entwicklung von Social-Media-Plattformen als besonderes Kulturgut dokumentie- 
ren sollten. 
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11.6 Fazit 


In diesem Beitrag standen die Herausforderungen im Umgang mit Social-Media-Plattformen 
und anderen Internetdaten als neue Art von sozialwissenschaftlichen Forschungsdaten im 
Vordergrund. Für jemanden, der in die Arbeit mit Social-Media-Daten einsteigen möchte, ist 
es wichtig, sich vorab über diese Schwierigkeiten im Klaren zu sein, um nicht im Laufe eines 
Forschungsprojektes plötzlich festzustellen, dass geplante Vorhaben nicht umsetzbar sind. 
Dennoch sollen die zahlreichen Problembereiche nicht entmutigen. Es ist durchaus möglich, 
mit Social-Media-Daten erfolgreiche Forschungsarbeiten durchzuführen. Und auch in den 
verschiedenen diskutierten Problembereichen werden nach und nach Lösungen erarbeitet. 
Man sollte sich vor Augen führen, dass es sich hier im Vergleich zur Umfrageforschung und 
-methodik um einen deutlich jüngeren Bereich handelt, indem Methoden und Standards noch 
von der Forschungsgemeinschaft entwickelt und etabliert werden müssen. 
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Georeferenzierte Daten sind Daten, die mit direkten Raumbeziigen, d.h. Geokoordinaten an- 
gereichert wurden (Meyer/Bruderer Enzler 2013: 323). Anwendungen fiir diese Daten finden 
sich vor allem in wissenschaftlichen Fachdisziplinen wie der Okologie, z.B. bei der Unter- 
suchung natürlicher Habitate von Vögeln oder der Bodenbeschaffenheit von Waldgebieten 
(Plant 2012: 9ff.). In der sozialwissenschaftlichen Umfrageforschung ist seit einigen Jahren 
ebenfalls eine verstärkte Nachfrage (Schweers et al. 2016; RatSWD - Rat fiir Sozial- und 
Wirtschaftsdaten 2012) sowie ein zunehmender Einsatz (Bluemke et al. 2017; Hillmert/Har- 
tung/Weßling 2017) georeferenzierter Umfragedaten zu beobachten. Die Hoffnung von For- 
schenden ist, dass sich durch die kleinräumige Verortung von Befragten sowie die räumliche 
Verknüpfung dieser Orte mit interessanten Nachbarschaftsmerkmalen die Kontexte sozialen 
Handelns besser erfassen und verstehen lassen (Stimson 2014: 18). In der Tat finden sich 
umfangreiche Arbeiten in den verschiedensten Teilbereichen der sozialwissenschaftlichen 
Forschung, etwa in der Analyse von politischen Verhalten und Einstellungen (Förster 2018; 
Klinger/Müller/Schaeffer 2017), sozialen Bedingungen von Gesundheit (Saib et al. 2014) 
oder sozialräumlichen Einflüssen auf Bildungsübergänge (Weßling 2016). 

Die Nutzung von georeferenzierten Umfragedaten hat indessen weitreichende Implikati- 
onen im Bereich des Forschungsdatenmanagements. Es müssen technische, organisatorische, 
datenschutzrechtliche und dokumentarische Fragestellungen geklärt werden. Denn zum ei- 
nen handelt es sich bei der Nutzung von georeferenzierten Umfragedaten um ein interdiszip- 
linäres Unterfangen (Dietz 2002: 540), das Forschenden und Forschungsprojekten Kennt- 
nisse der Daten und entsprechender Software zu ihrer Nutzung abverlangt (Meyer/Bruderer 
Enzler 2013: 319). Zum anderen sind georeferenzierte Daten vor allem sehr sensible Daten 
(Skinner 2012: 8), die im Sinne des Datenschutzes besonders geschützt werden müssen. 
Schließlich sollten die Prozesse der Datenerhebung und räumlichen Verknüpfung angemes- 
sen dokumentiert werden — ein Unterfangen, das bei interdisziplinären Projekten oftmals er- 
schwert ist (Edwards et al. 2011: 669). 

Diesen Herausforderungen im Forschungsdatenmanagement ist das vorliegende Kapitel 
gewidmet, in welchem sie systematisiert und anhand praktischer Lösungsmöglichkeiten dis- 
kutiert werden. In Abschnitt 12.1 werden zunächst grundlegende Begriffe und Prozesse ge- 
klärt. Die drei darauffolgenden Abschnitte widmen sich den technischen sowie organisatori- 
schen (12.2), datenschutzrechtlichen (12.3) und dokumentarischen (12.4) Herausforderun- 
gen. Zunächst werden dazu jeweils die einzelnen Herausforderungen vorgestellt und an- 
schließend Lösungsmöglichkeiten diskutiert. In Abschnitt 12.5 wird schließlich die Weiter- 
gabe von georeferenzierten Umfragedaten zur Sekundäranalyse skizziert, bevor Abschnitt 
12.6 das vorliegende Kapitel zusammenfasst. 
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12.1 Begriffe und wichtigste Prozesse 


Wie eingangs erwähnt haben georeferenzierte Umfragedaten eine interdisziplinäre Kompo- 
nente. Diese folgt daraus, dass etwa die Ökonomie, Soziologie oder Geographie über unter- 
schiedliche Werkzeuge und Terminologien zur Beantwortung ihrer Forschungsfragen verfü- 
gen (Dietz 2002: 540). Forschende und Forschungsprojekte aus den Sozialwissenschaften 
sind folglich bei der Arbeit mit Daten aus anderen Disziplinen häufig mit Begriffen und Pro- 
zessen konfrontiert, die ihnen fremd sind und einer Klärung bedürfen. Im Folgenden werden 
daher die wichtigsten Begriffe und Prozesse vorgestellt. 


12.1.1 Georeferenzierung, Geokodierung und Geodaten 


Als georeferenzierte Umfragedaten werden oft Umfragedaten bezeichnet, denen standardi- 
sierte Raumbezüge zugeordnet wurden. Zu diesen standardisierten Raumbezügen zählen Na- 
men und Bezeichner (ID) für räumliche Einheiten wie Kreise, Gemeinden oder Postleitzah- 
lengebiete (Hillmert et al. 2017: 270f.). Diese Zuordnung hat u.a. große Vorteile für die Ana- 
lyse der Daten. So können etwa Abhängigkeiten zwischen Befragten, verursacht durch 
Klumpungen von Personen im Raum, kontrolliert werden oder Kontextdaten aus anderen 
Quellen, z.B. über gemeinsame Namen und Bezeichner, den Umfragedaten hinzugefügt wer- 
den. 

In den Geowissenschaften wie z.B. der Ökologie ist der Begriff der Georeferenzierung 
hingegen enger gefasst: Demnach bezeichnet Georeferenzierung die Zuordnung von Geoko- 
ordinaten zu Daten (RatSWD 2012: 11). Im Gegensatz zu Namen und Bezeichnern sind Ge- 
okoordinaten Koordinatenpunkte, die über ein entsprechendes Koordinatensystem, das über 
die Erdoberfläche gespannt wurde, die Lage eines Punktes auf jener Erdoberfläche verorten. 
Die Zuordnung von Geokoordinaten zu Daten hat den Vorteil, dass Beobachtungen im Raum 
zueinander in Beziehung gesetzt werden können und explizite Analysen basierend auf die- 
sem Raumbezug möglich werden. Dazu gehören z.B. die Berechnung von geographischen 
Distanzen zwischen Punkten oder die Errechnung von Flächenanteilen umliegender Flächen 
einzelner Punkte (Meyer/Bruderer Enzler 2013: 327ff.). 

Für eine Georeferenzierung müssen also Geokoordinaten vorliegen. Oft ist es dafür not- 
wendig, die Daten mit indirektem Raumbezug (beispielsweise Adressen von Befragten) in 
Geokoordinaten zu übersetzen. Diesen Vorgang der Umwandlung nennt man Geokodierung. 
Hierzu können automatisierte Dienste genutzt werden, die auf Datenbanken zugreifen, wel- 
che Adressinformationen sowie zugehörigen Geokoordinaten beinhalten und diese wechsel- 
seitig konvertieren (Zandbergen 2014: 2). Allerdings wird dabei die Geokodierung selten von 
einzelnen Forschungsprojekten lokal, d.h. am eigenen Computer, vorgenommen, da das Be- 
treiben eines solchen Dienstes technisch sehr aufwändig ist. Daher ist oft die Inanspruch- 
nahme von Drittanbietern von Geokodierungsdiensten wie zum Beispiel Google, Bing oder 
dem Bundesamt für Kartographie und Geodäsie (BKG) erforderlich. 

Im Kontext der Georeferenzierung sind schließlich noch Geodaten (im Allgemeinen) zu 
erwähnen. Geodaten sind Daten, deren Informationen durch Geokoordinaten im Raum dar- 
gestellt und analysiert werden können. Diese Informationen und deren zugrunde liegenden 
Beobachtungseinheiten nehmen je nach Geodatensatz unterschiedliche Ausdehnungen im 
Raum in Form von Geometrien ein, wie z.B. ein Punkt oder ein Polygon. Geodaten und deren 
enthaltene Geometrien sind somit bereits georeferenziert. Zwar können auch georeferenzierte 
Umfragedaten aus den Sozialwissenschaften als Geodaten bezeichnet werden, es ist jedoch 
sinnvoll, georeferenzierte Umfragedaten von Geodaten explizit zu unterscheiden. Aus daten- 
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schutzrechtlichen Gründen müssen Geokoordinaten und Umfragedaten stets getrennt gespei- 
chert werden. Daher liegen Umfragedaten zumindest auf Adressebene nie als georeferen- 
zierte Daten im Sinne von eigenständigen Geodatensätzen vor, wie im Abschnitt 12.3 aus- 
führlicher erörtert. 


12.1.2 Räumliche Verknüpfung 


Eine räumliche Verknüpfung ist die Verbindung zweier zuvor getrennt vorliegender geore- 
ferenzierter Datensätze bzw. Geodaten. Dazu wird zunächst eine Zielquelle (z.B. der geore- 
ferenzierte Datensatz A) ausgewählt, der räumliche Eigenschaften (Geometrien) oder Attri- 
bute (Fachinhalte) einer anderen Quelle (z.B. der georeferenzierte Datensatz bzw. Geodaten- 
satz B) hinzugefügt werden. Wie in Abbildung 12.1 dargestellt, sind Geometrien eine geo- 
metrische Form der räumlichen Einheiten, wie etwa: 


Punkte für Hausadressen von Befragten, 

Linien für Straßen, 

Polygone für Stadteilumrisse oder 

gleichmäßige Rasterflächen für grenzübergreifende Merkmale. 


Fachinhalte sind inhaltliche Eigenschaften, die diese Geometrien als Attribute enthalten kön- 
nen: Anzahl der Personen, die an einer Adresse wohnen (= Punkte), Hauptverkehrsstraßen 
oder Nebenstraßen (= Linien), Anzahl der Arbeitslosen in einem Stadtteil (= Polygone) oder 
die Luftverschmutzung über Stadtgrenzen hinweg (= Rasterflächen). Durch die Georeferen- 
zierung ist es möglich, einen willkürlichen Punkt innerhalb einer Geometrie zu wählen und 
eine Geokoordinate für diesen Punkt zu extrahieren, wie es in Abbildung 12.1 anhand eines 
Punktes der Polygon-Geometrie dargestellt ist. Dies ist die Grundlage für räumliche Ver- 
knüpfungen. 


Abbildung 12.1: Mögliche Geometrien verschiedener Geodaten 


Punkte, z.B. Adressen von Befragten Linien, z.B. Straßen 
@ 
e © 
o ° © 
= © 
Polygone, z.B. Gemeindeumrisse Raster, z.B. gleichmäßige Gebietsflächen 


Extraktion einer Geokoordinate 


Quelle: Eigene Darstellung 
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Denn durch die Projektion in einem gemeinsamen Koordinatenraum können in der Folge 
räumliche Verknüpfungen realisiert werden. Abbildung 12.2 zeigt diesen Vorgang anhand 
des Beispiels von Umgebungslärmdaten und Geokoordinaten von fiktionalen Teilnehmen- 
den an einer Umfrage. Die Abbildung zeigt zwei Karten: eine Karte auf der unteren Ebene, 
die Straßen in Form von Linien abbildet, und eine Karte auf der oberen Ebene, die mit den 
Straßen assoziierten Verkehrslärm in Form von Polygonen darstellt. Dadurch, dass beide 
Karten in einem gemeinsamen Koordinatenraum projiziert werden, kann für jeden beliebigen 
Punkt einer gewählten Karte die Information der jeweilig anderen Karte extrahiert werden. 
Somit lässt sich beispielsweise analysieren, auf welchen Straßen ein Dezibelwert von mehr 
als 50 gemessen wurde. 


Abbildung 12.2: Räumliche Verknüpfung von geokodierten Adressdaten und Straßenlärmdaten 


_ Gemessener Straßenlärm 
/ an Adresse der Befragten 


\ Adresse der Befragten 


Quellen: Eigene Darstellung unter Nutzung von EIONET Data Repository (CDR) für die Straßenlärmdaten und OpenSt- 
reetMap für die Straßenkarte (OSM). 


Orangene Marker stellen die geokodierten Adressen dar, welche gemeinsam mit den Straßenlärmdaten in einen ge- 
meinsamen Raum projiziert werden. Graue Marker repräsentieren die entsprechenden gemessenen Werte des Stra- 
Renlärms an der geokodierten Adresse. 


So können nicht nur Geometrien verbunden, sondern auch die den Geometrien zugeordneten 
Attribute, wie z.B. Verkehrslärm, verknüpft werden. Ferner können diese Attribute durch die 
Projektion in einem Koordinatenraum verschiedentlich bearbeitet werden, was durch eine 
Reihe standardisierter Verfahren möglich wird (Strobl 2017: 472). Ein gängiges Beispiel ist 
die Berechnung von Distanzen, wie etwa die Berechnung für Koordinatenpunkte, für die 
keine Straßenlärmmessung vorliegt, oder die Distanz zur nächsten Messung eines Dezibel- 
werts einer bestimmten Höhe. Analog lässt sich auch die mittlere gemessene Lärmbelastung 
in einem Umkreis von z.B. 100 Metern abbilden. Mit herkömmlichen Methoden über ge- 
meinsame Namen oder Identifikatoren, wie etwa Gemeindeschlüssel oder Postleitzahlen, las- 
sen sich derartige Verknüpfungen nicht vornehmen - einerseits aus Mangel einer kleinräu- 
migen Verortung im Raum, anderseits aufgrund der fehlenden Projektion der Beobachtungen 
als Geometrien in einem gemeinsamen Koordinatenraum. 
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12.1.3 Exemplarischer Verlauf der räumlichen Verknüpfung 


Georeferenzierte Umfragedaten haben die Eigenschaft, dass es sich dabei um Individualdaten 
handelt, die in Verbindung mit Adressinformationen personenbezogen sind. Nach der aktu- 
ellen Datenschutzgesetzgebung (BDSG) in Deutschland, die auf der Datenschutzgrundver- 
ordnung der EU (DSGVO) und dem Gesetz zur Anpassung des Datenschutzrechts an die 
Verordnung (DSAnpUG-EU) basiert, müssen gemäß $ 27 Abs. 3 (DSAnpUG-EU) Merkmale 
gesondert gespeichert werden, „mit denen Einzelangaben über persönliche oder sachliche 
Verhältnisse einer bestimmten oder bestimmbaren Person zugeordnet werden können“. Diese 
Merkmale sind u.a. Adressen, zu denen somit auch auf Adressen beruhende Geokoordinaten 
gehören. Aus diesem Grund hat sich ein Prozess der räumlichen Verknüpfung etabliert, wel- 
cher eine strikte Trennung der verwendeten Datensätze vorsieht. Abbildung 12.3 stellt diesen 
Prozess exemplarisch dar. 


Abbildung 12.3: Ablauf der räumlichen Verknüpfung georeferenzierter Umfragedaten mit Geodaten 


Umfragedaten Adressen der Geodaten 
Befragten 


| 


Geokodierung 


| 


Geokoordinaten 


Räumliche Verknüpfung 


Verknüpfung 


| 


Umfragedaten mit Raumattributen 
Quelle: Eigene Darstellung 


Zunächst existieren drei voneinander getrennt gespeicherte Datenquellen: die Umfragedaten, 
die dazugehörigen Adressinformationen und die Geodaten. Ziel einer räumlichen Verknüp- 
fung ist es, Informationen aus den Geodaten über die Adressinformationen der Befragten den 
Umfragedaten hinzuzufügen. Dazu werden die Adressdaten geokodiert und mit den Geoda- 
ten räumlich verknüpft. Erst dann werden diese neu hinzugewonnenen Informationen mit 
den eigentlichen Umfragedaten verknüpft, sodass zuletzt ein Umfragedatensatz mit soge- 
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nannten Raumattributen vorliegt. Die dafür notwendigen Zwischenschritte werden im Detail 
in den folgenden Abschnitten erörtert. 


12.2 Technische und organisatorische Aspekte der räumlichen 
Verknüpfung 


Die Arbeit mit georeferenzierten Umfragedaten und ihrer räumlichen Verknüpfung mit Geo- 
daten bedarf einiger technischer sowie organisatorischer Vorbereitungen, nicht zuletzt auf- 
grund der bereits diskutierten Interdisziplinarität. Forschungsprojekte müssen sich daher sehr 
früh mit technischen und organisatorischen Herausforderungen auseinandersetzen, da sich je 
nach konkretem Forschungsvorhaben große Implikationen seitens des Ressourcenmanage- 
ments ergeben können. 


12.2.1 Herausforderungen: Technik, Software und Ressourcen 


Zu den zwei wichtigsten technischen und organisatorischen Herausforderungen einer räum- 
lichen Verknüpfung gehören im Wesentlichen der angemessene Umgang mit zwei verschie- 
denen Datentypen — (georeferenzierte) Umfragedaten und Geodaten — sowie der Einsatz ent- 
sprechender Software, mit der sich diese beiden Daten verbinden lassen. 

Doch wie unterscheiden sich zunächst die beiden Datentypen? Umfragedaten werden zu- 
meist in einer flachen rechteckigen Datenstruktur in Form von einfachen Tabellen, der soge- 
nannten Datenmatrix, erfasst. Einer Konvention folgend stellen die Zeilen dieser Tabellen 
die Beobachtungen oder Fälle dar und die Spalten die sogenannten Variablen oder Attribute, 
die sich aus den kodierten Antworten einer Befragung ergeben. Geodaten lassen sich zwar in 
bestimmten Dateiformaten ebenfalls in einer rechteckigen Form darstellen, z.B. als Comma 
Separated Text Files (CSV), die Weiterverarbeitung und Analyse führt jedoch weg von der 
flachen Datenstruktur hin zu einer mehrdimensionalen Struktur. So kann grundsätzlich zwi- 
schen Informationen hinsichtlich der Geometrien (z.B. Punkte oder Polygone) und den 
Fachinhalten (Höhe der Luftverschmutzung an einem Messpunkt, Anteil von Kindertages- 
stätten in einem Stadtteil) unterschieden werden. Beobachtungen aus einem Geodatensatz 
sind somit einerseits durch ihre Lage im Raum sowie durch weitere Informationen, die mit 
ihnen attribuiert sind, beschrieben. 

Um mit diesen Daten zu arbeiten, wird spezielle Software eingesetzt: Geographische In- 
formationssysteme (GIS). Die Handhabung von GIS muss aufgrund ihrer Komplexität von 
Forschenden erlernt werden (Meyer/Bruderer Enzler 2013: 319). Es handelt sich dabei um 
Software zur Bearbeitung, Analyse, aber auch graphischen Darstellung raumbezogener Da- 
ten (Bluemke et al. 2017). Daneben müssen je nach Projektkontext auch gewisse Hardware- 
anforderungen bewältigt werden. Geodaten können u.U. sehr groß sein. Je nach Umfang und 
Dateiformat sind Dateigrößen im Gigabyte-Bereich keine Seltenheit. Zuletzt werden für die 
eigentliche Bearbeitung dieser Daten daher seitens der Computerausstattung angemessene 
Prozessor-Taktungen und eine ausreichende Verfügbarkeit von Arbeitsspeicher benötigt. 
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12.2.2 Antworten und Lösungen: Personal-, Weiterbildungs- und Ressourcenpolitik 


Die Antworten fiir Forschungsprojekte auf diese technischen und organisatorischen Heraus- 
forderungen sind zunächst sehr einfach: Es bedarf einer angemessenen Weiterbildungs-, Per- 
sonal- und Ressourcenplanung, die optimalerweise bereits vor Projektbeginn vorgenommen 
werden sollte. Allerdings fallen die insbesondere hinsichtlich der Ressourcenplanung beste- 
henden Details je nach Projektkontext unterschiedlich kompliziert aus. Aus diesem Grund 
kann hier keine Blaupause darüber erstellt werden, welche Maßnahmen und Kosten wie und 
in welchem Maße z.B. bei der Erstellung von Forschungsdatenmanagementplänen anfallen. 
Es gibt jedoch Abwägungsüberlegungen, die im Folgenden vorgestellt werden und entspre- 
chend des konkreten Projektvorhabens spezifiziert werden müssen. 

Relativ nahe liegt zunächst die eigene Weiterbildung oder gezielte Anwerbung von Mit- 
arbeitenden mit entsprechenden Fähigkeiten im Umgang mit Geoinformationssystemen. 
Dies ist oft nötig, da GIS in den Geistes- und Sozialwissenschaften noch verhältnismäßig 
wenig Verwendung finden (Meyer/Bruderer Enzler 2013: 319) — auch wenn neuere Trends 
darauf hindeuten, dass sich dieser Umstand im Wandel befindet (Bluemke et al. 2017: 309). 

Mitarbeitende müssen schließlich über die nötige Ausstattung verfügen können. Das heißt 
Forschungsprojekte müssen sich, je nachdem welche konkreten Forschungsvorhaben anste- 
hen, mit der Lizenzierung von Software etwa von Geoinformationssystemen auseinanderset- 
zen. Denn Geoinformationssysteme sind stark auf dem kommerziellen Markt vertreten, wie 
z.B. das Produkt ArcGIS der Firma ESRI (2015). Mittlerweile gibt es zwar gut nutzbare freie 
Software, wie z.B. QGIS (QGIS Development Team 2018), und für Nutzende in den Sozial- 
wissenschaften ist wahrscheinlich insbesondere die Nutzung der freien Software R interes- 
sant (R Core Team 2017). Aber obwohl sich räumliche Verknüpfungen somit schon mit re- 
lativ geringem Ressourcenaufwand bewältigen lassen (Müller/Schweers/Siegers 2017), sind 
gerade größere Projekte auf die Unterstützung durch Softwarefirmen bei Skalierungs- und 
Performanzproblemen angewiesen. Hier ist eine kritische Evaluierung der jeweiligen Sys- 
temanforderungen für die einzusetzende Software hinsichtlich des konkreten Forschungsvor- 
habens notwendig. 

Neben der Erweiterung der eigenen (institutionellen) Fähigkeiten oder Ressourcen kön- 
nen räumliche Datenverknüpfungen alternativ auch institutionell auslagert werden. Diese 
Auslagerung fasst im besten Fall die Anforderungen an die erforderliche fachliche Expertise 
und die benötigte technische Ausstattung zusammen. Tatsächlich existiert ein relativ um- 
fangreicher Markt an Anbietern. Oft haben diese einen Schwerpunkt auf Marktforschung, 
wie z.B. die Firmen microm und Infas 360, die zum einen die notwendige Geokodierung und 
zum anderen die Verknüpfung mit vielfältigen kleinräumigen Geodaten anbieten. Dazu ge- 
hören soziodemographische Merkmale eines Wohnviertels, wie Alter, Familienstände und 
Ausländeranteile, oder auch sozioökonomische Indikatoren, wie z.B. detaillierte Angaben zu 
Kaufkraftindizes. 

Analog steigt aber auch die Anzahl nicht kommerzieller Anbieter (Schweers et al. 2016: 
107ff.), sodass mittlerweile viele öffentliche Daten als frei verfügbare Geodaten angeboten 
werden. Beispielsweise existieren mit der Geodateninfrastruktur Deutschland (GDI-DE) 
oder dem GOVDATA Portal im Internet frei verfügbare, harmonisierte Geodatenangebote, 
die eine Vielzahl von Daten aus den unterschiedlichsten Fachdisziplinen anbieten. Auf euro- 
päischer Ebene soll hier vor allem die Initiative Infrastructure for Spatial Information in 
Europe (INSPIRE) erwähnt werden, die von einer starken Zunahme an europaweiten harmo- 
nisierten Geodaten in den kommenden Jahren ausgeht. Obwohl diese Angebote zum jetzigen 
Zeitpunkt nicht derart umfassend sind wie jene kommerzieller Anbieter, stellen sie bereits 
heute eine gute Quelle für in der Forschung nutzbare Geodaten dar (Förster 2018; Klin- 
ger/Müller/Schaeffer 2017). Und während bei kommerziellen Anbietern oft das Black-Box- 


218 Stefan Müller 


Prinzip gilt, d.h. die Datengenese ist ein Betriebsgeheimnis, existiert gerade bei öffentlichen 
Daten eine Pflicht zur Transparenz. Allerdings, und hier liegt der Unterschied zu kommerzi- 
ellen Anbietern, finden sich im öffentlichen Sektor wenige bis gar keine Anbieter, die ein 
vollständiges räumliches Verknüpfungsprojekt inklusive der Geokodierung von Adressen 
begleiten können. Kurzum: In der Regel können externe Anbieter die Geokodierung, Aufbe- 
reitung der Geodaten und die Verknüpfung mit den Geokoordinaten übernehmen. Die Pflege 
und Aufbereitung der Daten während und vor allem nach Abschluss des Projekts obliegt 
jedoch weiterhin den Forschungsprojekten. Das betrifft u.a. auch die Dokumentation der Da- 
ten, worauf weiter unten noch näher eingegangen wird. 

Zusammenfassend bedeuten die technischen und organisatorischen Herausforderungen 
einer räumlichen Verknüpfung vor allem eines: einen erhöhten Ressourcenaufwand. Räum- 
liche Verknüpfungsprojekte können sehr einfach durchgeführt werden, z.B. wenn die hinzu- 
gefügten Geoinformationen aus frei verfügbaren und harmonisierten Quellen stammen. Sie 
können jedoch auch erschwert werden, wenn diese beispielsweise nicht harmonisiert oder 
sogar fehlerhaft vorliegen (Schweers et al. 2016: 109f.). Forschungsprojekte sollten daher 
sehr genau evaluieren, welche Daten, Verknüpfungen und Analysen sie für ihr Forschungs- 
vorhaben benötigen. 

Wie die Forschungsprojekte diesem erhöhten Ressourcenaufwand begegnen, kann dabei 
sehr unterschiedlich ausfallen: entweder durch eine gezielte Personal-, Weiterbildungs- so- 
wie technische Ausstattungsstrategie im Rahmen der Forschungsförderung oder durch Ko- 
operation mit Dateninfrastrukturen bzw. die Nutzung von Dienstleistungen öffentlicher oder 
kommerzieller Anbieter von Geodaten. Die Entscheidung für das eine oder andere bzw. einen 
Mix kann indessen nicht universell beantwortet werden. 


12.3 Datenschutz und Re-Identifikationsrisiko 


In räumlichen Datenverknüpfungsprojekten kommt dem Thema Datenschutz eine besondere 
Bedeutung zu, da hier ggf. in allen Phasen der Speicherung, Geokodierung, Verknüpfung, 
Distribution und Analyse entsprechender Daten mit personenbezogenen bzw. sensiblen In- 
formationen gearbeitet wird. Natürlich darf nicht unterschätzt werden, dass auch einfache 
Umfragedaten sensible Informationen beinhalten können. Gerade aber die Herstellung eines 
expliziten Raumbezugs von Umfragedaten verstärkt diese Problematik, da die räumliche 
Verortung die Zahl der für eine Re-Identifikation infrage kommenden Personen stark ein- 
grenzt. Beispielsweise ist die Identität einer Anwältin mit sieben Kindern in einem bestimm- 
ten Stadtteil einer bekannten Stadt wesentlich einfacher zu bestimmen, als eine Anwältin mit 
sieben Kindern, von der man nur weiß, in welchem Bundesland sie lebt. 


12.3.1 Herausforderungen: räumliche Verknüpfung und zusätzliche Informationen 


Die datenschutzrechtlichen Herausforderungen bei der Arbeit mit georeferenzierten Daten 
können abermals auf zwei Ebenen angetroffen werden: einerseits bezüglich des Verknüp- 
fungsprozesses sowie der notwendigen technischen Vorarbeit, wie eben erörtert; andererseits 
durch die Verknüpfung und das Hinzufügen zusätzlicher Attribute zu den Umfragedaten. 
Bezogen auf den ersten Herausforderungskomplex steht die angestrebte Verknüpfung ge- 
oreferenzierter Umfragedaten mit Geodaten zunächst vor dem Problem, dass nach den gülti- 
gen Datenschutzregeln Adressinformationen, und damit auch Geokoordinaten, nicht gemein- 
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sam mit Umfrageattributen gespeichert werden diirfen. Aus diesem Grund werden in typi- 
schen Umfrageprojekten Adress- und Umfragedaten in separaten, bestenfalls lokal getrenn- 
ten Dateien vorgehalten.! Oftmals übernimmt gar das beauftragte Erhebungsinstitut die Spei- 
cherung der Adressen. Je nach Größe des Projekts haben dann jeweils verschiedene Mitar- 
beitende Zugriff auf die separaten Daten. 

Gleichzeitig muss spätestens für die räumliche Verknüpfung dieser Daten eine Korres- 
pondenz hergestellt werden. So ist es durchaus möglich, die Geokoordinaten der Befragten 
einer Umfrage mit Informationen aus weiteren Geodaten (z.B. Dezibelwerte aus Verkehrs- 
lärmdaten) räumlich zu verknüpfen. Doch wenn diese Geokoordinaten der Befragten nun 
nicht mit den eigentlichen Umfrageinformationen gemeinsam gespeichert werden dürfen 
oder sollten, wie sollen die Dezibelwerte für einen gemeinsamen Analysedatensatz räumlich 
verknüpft werden? Diese Frage kann nur durch organisationale Abläufe des eigentlichen 
Verknüpfungsprozesses beantwortet werden. 

Denn auch schon vor der eigentlichen räumlichen Verknüpfung müssen Fragen beant- 
wortet werden, die sich aus der Geokodierung ergeben. Geokodierungsservices verarbeiten 
Daten nicht lokal, sondern bieten die Möglichkeit, über das Internet individuelle Geokoordi- 
naten für individuelle Adressinformationen abzufragen (Zandbergen 2014: 2). Nutzende die- 
ser Dienste laden z.B. eine CSV-Datei mit Adressinformationen zu dem jeweiligen Dienst 
hoch und können diese, nachdem der Prozess beendet wurde, angereichert mit Geokoordina- 
ten wieder herunterladen. 

Die technische Implementierung der Speicherung der Anfragen unterscheidet sich indes- 
sen je nach Dienst gravierend. Kommerzielle Anbieter speichern u.U. Anfragen an den Ge- 
okodierungsdienst, d.h. die Adressen der Befragten, was zu schwerwiegenden Problemen mit 
datenschutzrechtlichen Vorgaben führt. Es ist z.B. davon auszugehen, dass ein Unternehmen 
wie Google, dessen Geschäftsmodell auf Daten basiert, jegliche Anfragen an ihren Geoko- 
dierungsservice nachhält. Zu bedenken ist auch, dass datenschutzrechtlich zertifizierte Geo- 
kodierungsdienste wie jener vom BKG in der Regel nur Bundeseinrichtungen, also Bundes- 
behörden oder vom Bund finanzierte Forschungseinrichtungen, zur Verfügung stehen. In- 
wieweit diese geschützten Dienste wie z.B. der BGK GeoCoder auf vertraglicher Grundlage 
auch für (öffentlich finanzierte) Forschungszwecke genutzt werden können, sollte dort er- 
fragt bzw. beantragt werden. 

Zwar ist es durchaus möglich, einen eigenen Geokodierungsserver z.B. über die Daten- 
bank der freien Kartenanwendung OpenStreetMap zu betreiben. Dieser sogenannte OpenSt- 
reetMap-Nominatim-Server ist jedoch sehr aufwendig zu pflegen. Zudem lassen sich mit 
OpenStreetMap nicht immer adressgenaue Geokodierungen vornehmen, da für bestimmte 
Adressen keine Hausnummern vorliegen. 

Auch wenn Geokodierungsservices gefunden werden, die Anfragen nur flüchtig verar- 
beiten und nicht längerfristig speichern, z.B. über vertragliche Vereinbarungen, birgt der 
Weg über einen Webdienst Gefahren. Während Adressen für sich genommen nicht zwingend 


1 Indem seit dem 25. Mai 2018 gültigen Gesetz zur Anpassung des Datenschutzrechts an die Verordnung steht 
allerdings auch der Passus, dass personenbezogene Daten (d.h. auch Adressen bzw. Geokoordinaten), „mit den 
Einzelangaben nur [sic!] zusammengeführt werden [dürfen], soweit der Forschungs- oder Statistikzweck dies 
erfordert“ (DSAnpUG-EU $ 27 Abs. 3). Eine räumliche Verknüpfung könnte u.U. als ein solcher Forschungs- 
oder Statistikzweck bezeichnet werden. Allerdings war dieser Passus in der alten Fassung des BDSG bereits 
im gleichen Wortlaut enthalten. Dennoch hat sich in Forschungsprojekten der konservative Ansatz bewährt, 
diese Merkmale schlichtweg zu trennen. Im Folgenden wird zudem ein Verfahren vorgestellt, das eine räum- 
liche Verknüpfung von georeferenzierten Umfragedaten mit Geodaten auch unter einer solchen strengen Re- 
gelung möglich macht. 
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personenbezogene Daten darstellen,” können sie sehr wohl in Verbindung mit weiteren In- 
formationen Rückschlüsse auf Befragte, d.h. natürliche Personen, zulassen. Dazu gehören 
Metainformationen wie z.B. der Projekttitel einer Befragung im Dateinamen einer Adress- 
liste, welche für den Geokodierungsservice genutzt wird, oder die korrespondierende Anzahl 
der Zeilen in dieser Datei mit der Anzahl der Ausschöpfungsquote jener Befragung. Auch 
kann der über IP-Adressen ermittelte Ort, von wo aus die Anfrage an den Dienst gestellt 
wurde, auf etwaig mit dem Ort verbundene Forschungsprojekte verweisen. 

Die zweite Herausforderung bezüglich des Datenschutzes betrifft das Hinzufügen zusätz- 
licher Attribute zu den Umfragedaten. Gerade die Verortung im Raum, insbesondere im 
kleinräumigen Maßstab, schafft ein erweitertes Re-Identifikationsrisiko von Befragten. Auch 
die Attribute des Raums selbst — z.B. die Ausländeranteile, die Anteile von Arbeitslosen oder 
die Luftverschmutzung in einer bestimmten räumlichen Einheit, etwa einer Nachbarschaft — 
können einzigartige Beobachtungen in einem Datensatz erzeugen. In der Kombination mit 
anderen Attributen ist man so u.U. schnell in der Lage, Rückschlüsse auf einzelne Personen 
zu ziehen. Kapitel 4 geht im Rahmen der Anonymisierung näher auf dieses Problem der Re- 
Identifikation natürlicher Personen in Forschungsdaten ein. 

Prinzipiell liegt die besondere Gefahr der Verknüpfung mit Geodaten darin begründet, 
dass Geodaten ebenso wie die Umfragedaten in maschinenprozessierbarer Form vorliegen. 
Zusatzinformationen zur Nachbarschaft der Befragten ergeben sich daher nicht aus vermeint- 
lichem Insiderwissen, sondern durch Daten, die in aufbereiteter, durchsuchbarer und syste- 
matisch auswertbarer Form vorliegen. Dieser Umstand wird verstärkt, wenn es sich dabei um 
Geodaten handelt, die frei zugänglich sind und deren Informationen zu einem Umfrageda- 
tensatz hinzugefügt wurden. 


12.3.2 Antworten und Lösungen: technische und organisationale Verfahren 


Den beiden Herausforderungen bezüglich des Datenschutzes georeferenzierter Umfrageda- 
ten — getrennte Speicherung und Re-Identifikationsrisiko — kann im Wesentlichen durch ei- 
nen vorab definierten Ablauf der räumlichen Verknüpfung begegnet werden. Zentrale Ele- 
mente betreffen sowohl die Auswahl geeigneter Ablageorte und Speicherverfahren als auch 
die organisationale Struktur der Verknüpfung selbst. Indessen muss die konkrete daten- 
schutzkonforme Implementierung an das jeweilige Forschungsvorhaben angepasst und ent- 
sprechend umgesetzt werden. Abbildung 12.4 zeigt exemplarisch den vollständigen Ablauf 
der Georeferenzierung und räumlichen Verknüpfung, wie er u.a. für Forschungsprojekte an- 
gewendet werden kann, in welchen die Umfragedaten selbst erhoben werden und somit Zu- 
griff auf die Adressdaten der Befragten besteht. 

Zunächst wird im Ablauf der Georeferenzierung und der Datenverknüpfung sicherge- 
stellt, dass Umfragedaten (Datensatz A) und Adressen bzw. Geokoordinaten der Befragten 
(Datensatz B) zu keinem Zeitpunkt gemeinsam gespeichert werden. Dies wird erreicht, in- 
dem getrennte physische Ablageorte gewählt werden. In der Folge liegen die Umfragedaten 
auf Computer/Server A und die Adressinformationen auf Computer/Server B getrennt vor. 
Zusätzliche Sicherheit bietet der Einsatz eines dritten Ablageorts, Computer/Server C. Auf 
diesem wird eine Korrespondenztabelle der Identifikatoren, z.B. laufende Nummern für die 
Befragten in den Datensätzen A und B, gespeichert, welche sich jedoch zwischen diesen 
beiden Datensätzen unterscheiden. Somit ermöglicht die Korrespondenztabelle die 


2 Adressen sind Öffentlich verfügbare Informationen, die zunächst Gebäude referenzierbar machen. Allerdings 
kann beispielsweise die Adresse von einem alleinstehenden Gebäude, in welchem nur eine Person wohnt, sehr 
wohl direkte Informationen über die Identität einer einzelnen Person liefern. 
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Verkniipfung der Umfrage- mit den Adressdaten. Der Zugriff auf diese Korrespondenztab- 
elle muss daher auch besonders streng gestaltet werden. 

Bis zu dem Punkt, an welchem Geoinformationen und Umfragedaten in einen gemeinsa- 
men Datensatz überführt werden, können alle Daten relativ problemlos aufbereitet und ge- 
managt werden. Nachdem die Adressdaten geokodiert wurden, können diese mittels der 
räumlichen Verknüpfung mit den Geodaten verknüpft werden. Im Verlauf müssen aber ei- 
nige je nach Problemstellung unterschiedliche Vorkehrungen und Entscheidungen getroffen 
werden. 


Abbildung 12.4: Vollständiger Ablauf der räumlichen Verknüpfung von georeferenzierten Umfragedaten mit Geodaten 
unter besonderer Berücksichtigung des Datenschutzes 
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Erstens müssen, um die hinzugewonnenen Geoinformationen mit den Umfragedaten zu ver- 
knüpfen, die im verknüpften Datensatz noch enthaltenen Geokoordinaten gelöscht werden. 
Dadurch wird die direkte Re-Identifikation von befragten Personen über die Geokoordinaten 
vermieden. Zweitens können ggf. Rauminformationen der Geokoordinaten vergröbert wer- 
den, etwa durch eine Aggregation der Koordinaten auf hierarchisch höher gelagerte Raum- 
grenzen, wie z.B. Stadtteile. Dieser Schritt würde garantieren, dass trotz der Löschung der 
kleinräumigen Rauminformationen die statistische Kontrolle räumlicher Abhängigkeiten in 
späteren Analysen der Daten möglich bleibt. Ebenso lassen sich somit ex post zusätzliche 
Geoinformationen auf diesem höheren Aggregationsniveau hinzufügen. 
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Es existieren verschiedene Verfahren wie Rauminformationen, zu denen Geokoordinaten 
zählen, vergröbert werden können. Hierbei sollte grob zwischen zwei Verfahren unterschie- 
den werden: erstens Verfahren, welche die ursprüngliche Geokoordinate verfremden 
(Kroll/Schnell 2016; Zandbergen 2014) und somit keinen Rückschluss mehr auf die Ur- 
sprungsgeokoordinate zulassen sollten (Kounadi/Leitner 2014); sowie zweitens Verfahren, 
die sich mit dem Re-Identifikationsrisiko in bereits vergröberten Raumeinheiten, wie z.B. 
Gemeinden oder Postleitzahlengebiete, auseinandersetzen (Blatt 2012; El Emam 2006). Die- 
ser Bereich ist im Detail sehr komplex und je nach hinzugefügter Rauminformation kann die 
Entscheidung, welche Daten wie vergröbert oder verfremdet werden, sehr unterschiedlich 
ausfallen. In diesem Kapitel wird daher auf eine weitergehende Diskussion verzichtet. 

Der Datenschutz von Befragten spielt zu jedem Zeitpunkt eines jeden Forschungsvorha- 
bens mit georeferenzierten Umfragedaten eine große Rolle. Angefangen von der Geokodie- 
rung über die eigentliche Verknüpfung bis hin zur Weitergabe und somit Sekundärnutzung 
muss stets bedacht werden, dass mit sehr sensiblen Informationen gearbeitet wird, die beson- 
derer Vorkehrungen bedürfen. Mit dem nötigen Problembewusstsein und einer entsprechen- 
den Anpassung der Arbeitsabläufe und -prozesse lassen sich die mit georeferenzierten Um- 
fragedaten verbundenen Risiken jedoch wirkungsvoll minimieren. 

Es muss allerdings bedacht werden, dass die hier vorgestellten Lösungen der datenschutz- 
bezogenen Herausforderungen sich vor allem auf die interne Anwendung innerhalb von in- 
dividuellen Forschungsprojekten beziehen. Die Kontrolle über die Prozesse ist wesentlich 
erschwert, wenn Geodatenfachexpertise ausgelagert wird und Geokodierungen, räumliche 
Verknüpfungen und Analysen durch externe Dienstleister durchführt werden. Hier gilt es 
Versicherungen über Datenschutzvorkehrungen bei den jeweiligen Drittanbietern einzuho- 
len. Letztlich muss der Weg über Drittanbieter jedoch nicht zwingend ein Problem sein, son- 
dern kann datenschutzbezogene Vorkehrungen sogar vereinfachen. Ein entsprechendes Bei- 
spiel ist das Sozio-oekonomischen Panel (SOEP), dessen datenerhebendes Institut als Treu- 
händler der Adressdaten und ihrer Geokodierung auftritt. Die Primärforschenden des SOEP 
haben hingegen keinen Zugriff auf die Adressdaten der Befragten (Goebel/Wagner/Wurm 
2010: 5). 


12.4 Dokumentation georeferenzierter Umfragedaten 


Kapitel 6 dieses Buches diskutiert die Bedeutung einer detaillierten Planung der Prozesse der 
Dokumentation von Forschungsdaten. Die Dokumentation georeferenzierter Umfragedaten 
unterscheidet sich nicht wesentlich von jener klassischer sozialwissenschaftlicher Umfrage- 
bzw. Forschungsdaten. Allerdings müssen einige Fallstricke beachtet werden, die sich daraus 
ergeben, dass Metadaten aus verschiedenen Fachdisziplinen zusammengebracht werden, die 
sich u.U. nicht mit dem etablierten sozialwissenschaftlichen DDI-Metadatenstandard abbil- 
den lassen. 


12.4.1 Herausforderungen: Metadaten aus verschiedenen Quellen 


In vielen wissenschaftlichen Fachdisziplinen werden zur Dokumentation der Forschungsda- 
ten bewährte Metadatenstandards genutzt. So ist in den Sozialwissenschaften der Metadaten- 
standard der Data Documentation Initiative (DDI) stark verbreitet (Vardigan 2013; Zenk- 
Möltgen 2012), wie in Kapitel 9.1 beschrieben. In den Geowissenschaften und öffentlichen 
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Geodateninfrastrukturen (GDI) wird hingegen der ftir Geodatendaten spezifische ISO- 
19115-Metadatenstandard genutzt (AdV/KLA 2015). Bei der Dokumentation georeferen- 
zierter Daten müssen daher sowohl die räumliche Verknüpfung als auch die hinzugewonne- 
nen Informationen inhaltlich beschrieben werden. Das ist dann erschwert, wenn sich die ver- 
fügbaren Metadatenfelder in einem fachspezifischen Metadatenstandard nicht an den Erfor- 
dernissen aus der jeweilig anderen Fachdisziplin orientieren. 

Das Beispiel des DDI-Metadatenstandards ist dafür exemplarisch. So ermöglicht der 
DDI-Metadatenstandards etwa die Integration von Feldern aus dem Geodaten-Metadaten- 
standard ISO 19115 (Vardigan/Heus/Thomas 2008: 109). Entsprechende Felder in DDI sind 
explizit vorgesehen und erlauben beispielsweise die Beschreibung von geographischen 
Strukturen der Polygon-, Punkt- oder Rastergeometrien von Geodaten. Ebenso ist die An- 
wendung kontrollierter inhaltlicher Vokabulare aus ISO 19115 in DDI möglich. 

Allerdings lassen sich nicht alle Informationen auf die jeweiligen Entitätsebenen in DDI 
übertragen. So können die bereits erwähnten geographischen Strukturen gegenwärtig nicht 
auf der sogenannten Variablenebene der Umfragedaten beschrieben werden. Das geht nur 
über die sogenannte Studienebene, welche Informationen über die Daten als solche bereithält 
und alle darin enthaltenen Variablen einbezieht. Somit können in Umfragedaten etwaig vor- 
kommende geographische Strukturen nur für alle in den Daten enthaltenen Variablen ge- 
meinsam beschrieben werden. Das wäre insofern kein Problem, solange räumliche Daten- 
verknüpfungen nur zwischen den Umfragedaten und einer einzigen Geodatenquelle vorge- 
nommen werden. 

In der Praxis ist das jedoch kein realistisches Szenario. Ein Beispiel aus dem GESIS Da- 
tenarchiv für Sozialwissenschaften macht dies deutlich. Im Jahre 2015 wurden im Zuge der 
Georeferenzierung der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2014 
(GESIS 2015) deren Daten zunächst mit kleinräumigen Verkehrslärmdaten verknüpft. Ferner 
wurden durch die gleiche Methode kleinräumige Geoinformationen aus dem deutschen Zen- 
sus 2011 hinzugefügt. Auch konnte durch die Verortung von Befragten in einem Geokoordi- 
natenraum und mit Hilfe von Daten des BKG und Gebietsänderungslisten des Statistischen 
Bundesamtes (destatis) Harmonisierungen der Gemeinden bis ins Jahr 1994 vorgenommen 
werden (Klinger 2018: 50ff.). Dabei stammten alle drei Geodaten aus drei verschiedenen 
Quellen und hatten verschiedene geographische Strukturen als Grundlage: 


ungleichmäßige Polygone der Verkehrslärmdaten, 
gleichmäßige 1 km? Rasterzellen der Zensusdaten sowie 
großflächige Polygone der Gemeindeumrisse. 


Folglich konnten nicht alle drei Quellen zu Dokumentationszwecken in einer gemeinsamen 
inhaltlichen Kategorie zusammengefasst werden. 

Wie Forschende sich derartigen Herausforderungen stellen können, widmet sich der 
nächste Unterabschnitt, in welchem Möglichkeiten der Dokumentationen für georeferen- 
zierte Umfragedaten erörtert werden. Diese Möglichkeiten reichen von einfachen Work- 
arounds bis hin zu komplexeren Verfahren, die jedoch u.U. zu Inkompatibilitäten mit beste- 
henden Standards führen. 


12.4.2 Antworten und Lösungen: Workarounds und Brute-Force-Ansätze 


Obwohl der DDI-Metadatenstandard in den Sozialwissenschaften weit verbreitet ist, ist die 
Möglichkeit, den ISO-19115-Metadatenstandard in DDI zu integrieren, gegenwärtig nur auf 
die Studienebene begrenzt. Um dem Problem fehlender Dokumentationsmöglichkeiten in 
DDI auf Variablenebene zu begegnen, bestehen verschiedene Möglichkeiten, die ursprüng- 
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liche Implementierung von ISO 19115 in DDI in unterschiedlichem Maße zu modifizieren. 
So besteht erstens die Option von Workarounds, die zwar der ursprünglichen Spezifikation 
des Standards widersprechen, aber keine Inkompatibilität mit dem Standard als solchen dar- 
stellen. Sogenannte Brute-Force-Ansätze stellen eine zweite Option dar, die zu eindeutigen 
Inkompatibilitäten führen, indem bewusst die Implementierung der ISO-19115-Metadaten 
auf Variablenebene — entgegen des DDC-L Konzepts — erzwungen wird. Beide Ansätze ha- 
ben Vor- und Nachteile. 


Workarounds 


Der DDI-Metadatenstandard DDI-L (vgl. Kapitel 9.1.3) hat zum Ziel, Daten und ihren Ent- 
stehungs- und Nutzungskontext entlang des von der DDI-Alliance entwickelten Forschungs- 
datenzyklus und seinen acht Phasen (vgl. Kapitel 2.2) zu dokumentieren. Dabei sollten die 
Metadaten diesen Prozess der Entstehung des Datensatzes und die zugrunde liegende Studie 
idealerweise auf Grundlage der konzipierten DDI-L Module darstellen. Der hier vorgestellte 
Workaround bricht insofern mit diesem Prinzip, indem die Geoinformationen nicht alleine 
auf Studienebene beschrieben werden. Vielmehr lassen sich mit dieser Lösung die geogra- 
phischen Strukturen auch für einzelne Variablen auf der Ebene von Datensätzen beschreiben. 

Dazu wird der georeferenzierte Umfragedatensatz, der mit räumlichen Geoinformationen 
aus drei verschiedenen Quellen verknüpft wurde, durch Nutzung des DDI-L-Moduls Logi- 
calProduct in drei logisch voneinander getrennte Datensatz-Teile aufgegliedert. Jeder Teil- 
datensatz enthält lediglich die Attribute, die aus den jeweiligen Geodatenquellen stammen. 
Darüber hinaus wird jeder der drei Teildatensätze durch eine StudyUnit beschrieben. Mittels 
dieser Vorgehensweise können nun Metadatenfelder implementiert werden, die zwar nur auf 
Studienebene anwendbar sind und somit für alle in dem jeweiligen Datensatz enthaltenen 
Variablen gelten. Da im entsprechenden Teildatensatz aber ohnehin nur Geoinformationen 
aus einer Quelle mit einer einzelnen geographischen Struktur enthalten sind, ist die Zuord- 
nungsebene des Metadatenelements irrelevant. 

Auch durch die Beschreibung auf Studienebene werden die aus den Geoinformationen 
stammenden Variablen akkurat beschrieben. Problematischer ist vielmehr die DDI-L-kon- 
forme Integration der Einzelstudien, die Teil eines Umfrageprogramms wie der Allgemeinen 
Bevölkerungsumfrage (ALLBUS) sind, wenn sie zuvor in einzelne logische Sinneinheiten 
geteilt wurden. Das kann jedoch wiederum mit gegenseitigen strukturierten Referenzierun- 
gen gelöst werden, indem das DDI-L-Modul GroupPackage genutzt wird, um Metadaten aus 
mehreren Einzelstudien zu verknüpfen. 

Ein anderer Workaround besteht darin, dass gar nicht erst versucht wird, Geoinformatio- 
nen zwingend in DDI zu beschreiben. Stattdessen werden separate Dateien mit Metadaten 
angelegt, die dann auf der Variablenebene in DDI referenziert werden. Das Format dieser 
Dateien könnte beispielsweise ebenfalls in einem XML-Format und somit strukturiert vor- 
liegen. 

Der größte Vorteil des ersten Workarounds ist, dass Metadaten wie üblich weiterhin in 
DDI beschrieben werden können. Gleichzeitig hat der Workaround aber auch den Nachteil, 
dass die Anzahl separater Metadatenobjekte schnell ansteigt, wenn viele verschiedene Geo- 
datenquellen genutzt werden. Ähnlich verhält es sich auch mit dem zweiten Workaround. 
Zwar hat dieser Weg den Vorteil, dass das Prinzip der kompletten Beschreibung des Lebens- 
zyklus von Forschungsdaten nicht aufgebrochen werden muss, gleichzeitig entstehen aber 
zwei Nachteile: Erstens steigt auch bei diesem Workaround die Anzahl separater Metadate- 
nobjekte ggf. schnell an. Zweitens bleibt zwar die Kompatibilität mit DDI erhalten, die In- 
formationen sind aber ggf. für auf dem DDI Standard basierende Software nicht mehr 
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zugänglich. Im Folgenden wird daher ein weiterer Weg der Implementierung vorgestellt. 
Dieser führt jedoch zu schematischer Invalidität mit DDI, die stets berücksichtigt werden 
muss. 


Brute-Force-Ansätze 


Ein radikaler Ansatz, ISO-19115-Metadaten auch auf der DDI-Variablenebene zu implemen- 
tieren, besteht darin, diese Implementierung, obwohl konzeptuell nicht vorgesehen, zu er- 
zwingen. Auch hier sind grundsätzlich zwei Wege denkbar: 

Die Beschreibung geographischer Strukturen in DDI kann mittels des sogenannten Geo- 
graphicStructureScheme und der darin enthaltenen hierarchisch untergeordneten Metadaten 
vorgenommen werden. Dies ist jedoch nur innerhalb der Studienebene möglich — auf Vari- 
ableneben sind GeographicStructureSchemes nicht vorgesehen. Gleichzeitig handelt es sich 
bei DDI zunächst um reine Textdaten, die sehr wohl auf Variablenebene dem Standard wi- 
dersprechend manipuliert werden können. Somit lassen sich einfache technische Routinen 
entwickeln, um die GeographicStructureSchemes auch auf der Variablenebene anwenden zu 
können. 

Ein anderer und weniger invasiver Weg ist, auf der Studienebene mehrere Geogra- 
phicStructureSchemes zu definieren. Die Idee ist dabei auch, einfache Referenzen innerhalb 
dieser GeographicStructureSchemes zu definieren, die auf die jeweilige Variable verweisen, 
deren Grundlage die jeweilige geographische Struktur ist. Dieser letzte Schritt ist in DDI 
jedoch bisher nicht vorgesehen. Daher muss hier wieder eine eigene — sprich neue — Metada- 
tenstruktur implementiert werden, welches zu Inkompatibilitäten mit DDI führen kann. 

Unabhängig davon, welcher Brute-Force-Ansatz gewählt wird, hat die Inkompatibilität 
mit DDI weitreichende Konsequenzen. In technische Systeme, die gemäß der DDI-L Spezi- 
fikation aufgebaut sind, können die in einem räumlichen Verknüpfungsprojekt erfassten Me- 
tadaten — gemäß des abweichenden Brute Force Ansatzes — nicht mehr umstandslos impor- 
tiert und verarbeitet werden. Das ist vor allem dann problematisch, wenn z.B. das im Projekt 
bestehende Dokumentationssystem an erweiterte Katalogsysteme angeschlossen werden 
soll. 

Die Dokumentation georeferenzierter Umfragedaten ist bislang wohl die größte Heraus- 
forderung, zumindest wenn diese auf standardisierten Metadaten beruhen soll. Der Einsatz 
von Workarounds oder Inkompatibilitäten mit dem DDI-Metadatenstandard erschweren die 
Dokumentation und erscheinen dadurch wenig attraktiv. Um diese Lücken angesichts der 
zunehmenden Relevanz von georeferenzierten Umfragedaten in der Forschung zu schließen, 
müssen entsprechende Metadatenstandards weiterentwickelt bzw. angepasst werden. Von 
dieser Problematik sind jedoch nicht allein georeferenzierte Umfragedaten betroffen, sondern 
auch andere bzw. neue Datentypen wie etwa die in Kapitel 11 vorgestellten Social-Media- 
Daten. 

Entsprechende Entwicklungen im Bereich des DDI-L-Metadatenstandards sind bereits 
erkennbar angegangen worden. Das betrifft den Bereich der georeferenzierten Daten (Mül- 
ler/Schweers/Zenk-Möltgen 2016; Müller/Schweers/Zenk-Möltgen 2015) ebenso wie von 
Social-Media-Daten (Borschewski/Zenk-Möltgen 2017). Trotzdem ist der gegenwärtige Zu- 
stand vage und ruft ggf. in Forschungsprojekten Unsicherheiten hervor. Dementsprechend 
muss auch der Forschungsgemeinschaft daran gelegen sein, Lösungen anzumahnen, sich an 
ihrer Entwicklung zu beteiligen und sie zu implementieren. 
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12.5 Weitergabe georeferenzierter Umfragedaten zur 
Sekundärnutzung 


Bisher wurden vor allem Herausforderungen georeferenzierter Umfragedaten im Verlauf ei- 
nes Forschungsprojekts erörtert. Zum Abschluss dieses Kapitels soll noch kurz auf den Um- 
gang mit georeferenzierten Umfragedaten nach Projektende eingegangen werden. Im Kon- 
text einer vorausschauenden Planung des projektinternen Forschungsdatenmanagements ist 
die primäre Herausforderung, einen rechts- und datenschutzkonformen Weg der Weitergabe 
zu finden, um so die Daten für die Sekundärnutzung verfügbar zu machen (vgl. Kapitel 
3.2.2). Entsprechende Dienstleistungen von Datenarchiven, Datenzentren und Repositorien 
werden in Kapitel 7.4 thematisiert. 

Das zentrale Problem der projektinternen Planung der Sicherung, Archivierung, Bereit- 
stellung und Nachnutzung georeferenzierter Daten durch Dritte liegt im rechtskonformen 
Umgang mit Forschungsdaten und Materialien sowie dem datenschutzkonformen Umgang 
mit personenbezogenen Daten. Wie in Abschnitt 12.3 bereits erörtert, besteht bei georeferen- 
zierten Umfragedaten durch den Raumbezug ebenso wie durch die Anreicherung mit Zusatz- 
informationen ein erhöhtes Re-Identifikationsrisiko befragter Personen. Diesem Risiko kann 
generell mit zwei Strategien begegnet werden: Zum einen können die Daten aggregiert wer- 
den, sodass eine Re-Identifikation faktisch ausgeschlossen ist. Zum anderen kann der Zugang 
zu den Daten kontrolliert und durch individuelle Nutzungsvereinbarungen geregelt werden. 

Beide Ansätze haben Vor- und Nachteile. Das Aggregieren von Werten ist u.U. recht 
einfach zu bewerkstelligen und legt somit der Weitergabe etwa für Sekundäranalysen keine 
zusätzlichen Limitationen auf. Allerdings schränkt es — je nach Ausmaß der Aggregation — 
den analytischen Zugewinn ein und verringert das Analysepotential. Die Zugangskontrolle 
hingegen erhält zwar den analytischen Zugewinn, ist aber gleichzeitig mit erheblichem Mehr- 
aufwand in der Betreuung und Kontrolle der Nachnutzenden verbunden. 

Die Weitergabe nicht-aggregierter Daten durch entsprechende Zugangskontrollen ist in 
der Regel nur durch Archive oder Repositorien und der Expertise ihrer Mitarbeitenden zu 
gewährleisten. Je nach Ausrichtung und Portfolio haben diese Distributionswege für beson- 
ders schützenswerte Daten entwickelt. So hat z.B. das GESIS Datenarchiv für Sozialwissen- 
schaften mit dem Secure Data Center eine Einrichtung etabliert, die neben dem tatsächlichen 
Zugang zu den Daten und der anschließenden Kontrolle der Ergebnisse auch Beratungen im 
Bereich sensibler bzw. georeferenzierter Daten ermöglicht. 

Durch entsprechende Einrichtungen können also mittels gesicherter Zugangswege die 
Vorzüge des Data Sharings genossen und dennoch eine Übereinstimmung mit datenschutz- 
rechtlichen Fragestellungen gefunden werden. Und auch das gleichzeitige Angebot einer ag- 
gregierten Version der Daten ist damit nicht ausgeschlossen. Oft wird ein aggregierter und 
einfach zugänglicher Datensatz veröffentlicht (Public Use File) sowie ein weiterer besonders 
schützenswerter Datensatz parallel über gesicherte Zugangswege angeboten (Scientific Use 
File) (s. Kapitel 4.3.3). 

Schließlich bleibt noch ein weiteres Kriterium zur Weitergabe georeferenzierter Umfra- 
gedaten zu berücksichtigen. Abhängig davon, mit welchen Geodaten georeferenzierte Um- 
fragedaten räumlich verknüpft werden, können Rechte Dritter davon berührt sein. Das ist vor 
allem dann relevant, wenn Geoinformationen kommerzieller Anbieter verwendet werden. 
Aber auch Geodaten aus öffentlicher Hand könnten u.U. unter Nutzungsauflagen weiterge- 
geben worden sein (Schweers et al. 2016: 110). Es sollte daher ebenfalls geprüft werden, ob 
entsprechende Vereinbarungen eine Weitergabe des georeferenzierten Datensatzes über- 
haupt erlauben. Fehlt diese Möglichkeit aufgrund mangelnder Urheber- bzw. Verwertungs- 
rechte, bietet sich Forschenden die Alternative anstelle der Forschungsdaten die Skripte zu 
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deren Erstellung zu archivieren und anderen Forschenden verfügbar zu machen, wie in Ka- 
pitel 8.3 ausführlich diskutiert. 


12.6 Zusammenfassung 


Dieses Kapitel befasste sich mit den Möglichkeiten einer Georeferenzierung von Umfrage- 
daten und deren räumlicher Verknüpfung mit Informationen aus Geodaten. Dabei wurden 
vor allem technische, organisatorische, datenschutzrechtliche und dokumentarische Heraus- 
forderungen, aber auch die Weitergabe georeferenzierter Umfragedaten erörtert. Zusammen- 
fassend bleibt die Aussage, dass die Arbeit mit georeferenzierten Umfragedaten zugegebe- 
nermaßen anspruchsvoll ist. 

Für jede der einzelnen Herausforderungen wurden verschiedene Antworten und Lösun- 
gen vorgestellt. So kann den technischen und organisatorischen Herausforderungen entweder 
mit eigener personeller Ressourcenplanung — entweder durch Weiterbildung oder gezielter 
Anwerbung — begegnet werden. Oder es wird die Expertise von Drittanbietern im Bereich 
der Georeferenzierung in Anspruch genommen. In Bezug auf die datenschutzrechtlichen 
Herausforderungen können Bedenken vor allem durch einen umsichtigen Umgang mit den 
Daten auf technischer sowie organisatorischer Seite begegnet werden. Eine Trennung von 
Adressdaten bzw. Geokoordinaten und den eigentlichen Umfragedaten ist dabei oberstes 
Prinzip, das sich in der physischen Speicherung der Daten selbst niederschlagen muss. In- 
dessen finden sich bezüglich der Dokumentation räumlicher Verknüpfungen leider keine ein- 
deutigen Antworten. Die vollständige Dokumentation ist zwar möglich, bedeutet aber je 
nachdem Workarounds oder Inkompatibilitäten mit dem für die Sozialwissenschaften rele- 
vanten DDI-L Standard. Im Zweifelsfall sollte hier auf die Beratung und Unterstützung durch 
disziplinäre Dienstleister, wie etwa dem GESIS Datenarchiv, zurückgegriffen werden. 

Der Anwendungsfall georeferenzierter Umfragedaten und ihre Verknüpfung mit klein- 
räumigen Geodaten steht exemplarisch für eine Reihe von Innovationen und Trends in der 
empirischen Sozialforschung. So können einige in diesem Kapitel vorgestellte Herausforde- 
rungen durchaus auf die Verwendung anderer und neuer Datentypen wie etwa Social-Media- 
oder administrative Daten in den Sozialwissenschaften übertragen werden. Auch bei diesen 
Datentypen herrschen aktuell noch große Unsicherheiten etwa in Bezug auf deren Dokumen- 
tation (Borschewski/Zenk-Möltgen 2017). Sozialwissenschaftliche Forschung ist dyna- 
misch. Entsprechend müssen die Prozesse im Forschungsdatenmanagement sowie relevante 
Metadatenstandard wie etwa DDI-L stets an neue Entwicklungen und Herausforderungen 
angepasst werden. 
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